## Introducción a la manipulación de datos con Pandas (Parte II)

## Objetivos

Al final de esta sesión habrás:

**1.** Conocer las estructuras de datos en `pandas`. <br>
**2.** Comprender el uso de `pandas` para la manipulación de grandes volúmenes de datos. <br>

## 1. Librería `pandas`

En la sesión anterior, utilizamos el paquete `pandas`:

In [2]:
import pandas as pd

### 1.1. Lectura de archivos

A diferencia del paquete `numpy`, la librería `pandas` permite manipular información de diversas fuentes. Con invocar una función, es posible transformar estas fuentes en objetos `Dataframe` dentro del entorno de Python.<br>

#### Importar archivos en formato `.csv`

Los archivos delimitados por comas o 'csv' son uno de los formatos de archivos más comunes en el procesamiento de datos.

In [3]:
pd.read_csv('C:\\Users\\andre\\OneDrive\\Escritorio\\pune_1965_to_2002.csv')

Unnamed: 0,Year,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
0,1965,0.029,0.069,0.0,21.667,17.859,102.111,606.071,402.521,69.511,5.249,16.232,22.075
1,1966,0.905,0.0,0.0,2.981,63.008,94.088,481.942,59.386,150.624,1.308,41.214,4.132
2,1967,0.248,3.39,1.32,13.482,11.116,251.314,780.006,181.069,183.757,50.404,8.393,37.685
3,1968,0.318,3.035,1.704,23.307,7.441,179.872,379.354,171.979,219.884,73.997,23.326,2.02
4,1969,0.248,2.524,0.334,4.569,6.213,393.682,678.354,397.335,205.413,24.014,24.385,1.951
5,1970,0.07,0.0,0.001,16.218,68.036,300.546,330.502,283.476,158.64,115.758,0.26,0.0
6,1971,0.0,0.0,0.0,0.812,57.691,297.187,122.195,372.693,286.056,39.424,0.554,0.0
7,1972,0.0,0.029,0.0,5.982,19.101,132.413,338.484,68.741,120.415,1.078,24.089,0.143
8,1973,0.0,2.969,0.234,3.925,14.978,304.484,696.024,256.932,183.206,101.805,5.516,0.0
9,1974,0.0,0.0,6.427,16.864,51.209,148.697,405.359,319.651,288.533,188.876,0.26,0.0


#### Formato `.csv` con delimitador `;`

Dado el siguiente archivo, contenido dentro del repositorio: `"DiccionarioPaises.csv"` vemos que se diferencia del anterior, dado que su separador no es una `,` sino un `;`. Esto se puede solucionar muy fácilmente usando `pandas` al establecer el delimitador.<br>
    
    read_csv(file = "nombre_archivo.csv", delimiter = ';)

In [4]:
pd.read_csv('C:\\Users\\andre\\OneDrive\\Escritorio\\DiccionarioPaises.csv', encoding = "UTF-8", delimiter = ";")

Unnamed: 0,País en español,País en inglés
0,Afganistán,Afghanistan
1,Albania,Albania
2,Alemania,Germany
3,Andorra,Andorra
4,Angola,Angola
...,...,...
204,Vietnam,Vietnam
205,Yemen,Yemen
206,Yibuti,Djibouti
207,Zambia,Zambia


#### Importación de archivos en formato Excel `.xls` o `.xlsx`

Quienes apenas empiezan a incursionar en el mundo de la analítica de datos, pueden haber tenido experiencia previa con archivos de MS-Excel, para este ejercicio contamos con el documento `"ArchivoSoporteS3TU1.xlsx"`, el cuál puede ser fácilmente importado mediante `pandas` con una estructura similar a la siguiente:<br>
    
    read_excel(file = "nombre_archivo.xlsx")

In [7]:
pd.read_excel("C:\\Users\\andre\\OneDrive\\Escritorio\\ArchivoSoporteS3TU1.xlsx")

Unnamed: 0,Nombre,Edad,Ingresos,Ciudad Residencia
0,Juan,48,71,Bogotá
1,Maria,29,150,Lima
2,Jorge,43,98,Buenos Aires
3,Pablo,50,105,Bogotá
4,Laura,33,80,La Paz
5,Esteban,21,127,Lima
6,Juliana,48,131,La Paz
7,Valentina,47,89,Bogotá
8,Silvana,43,109,Buenos Aires


#### Formato `.dta`

Uno de los archivos de ejemplo fué llamado `"pooled_data_public.dta"` que contiene la base de datos completa del BID. Este archivo, al ser de tipo *.dta*, requiere de una función de `pandas` para ser importado a Python.<br>
    
    read_stata(file = "nombre_archivo.dta")

In [8]:
pd.read_stata("C:\\Users\\andre\\OneDrive\\Escritorio\\pooled_data_public.dta", index_col = 'id')

Unnamed: 0_level_0,country_code,country_name,weight,weight_pop,pop,recordeddate,genero,edad,educ,estcivil,...,medios_covid_periodicos,medios_covid_tv,medios_covid_radio,nps_medio_redessoc,nps_medio_sms,nps_medio_periodico,nps_medio_tv,nps_medio_radio,nps_medio_website,nps_medio_otro
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1000060.0,Bahamas,Bahamas,647.764465,2226.561768,3.514610e+05,2020-04-18,Femenino,20,Secundaria,soltero/a / divorciado/a,...,Siempre,A veces,Nunca,No,No,No,No,No,No,No
1000734.0,Bahamas,Bahamas,9.053495,31.119595,3.514610e+05,2020-04-16,Femenino,34,Universidad,Casado/a / pareja,...,A veces,Casi siempre,Casi siempre,Si,Si,No,Si,Si,No,No
1000057.0,Bahamas,Bahamas,0.413436,1.421105,3.514610e+05,2020-04-20,Femenino,22,Tecnica/Voca.,soltero/a / divorciado/a,...,-99,Siempre,-99,No,No,No,No,No,No,No
1000120.0,Bahamas,Bahamas,26.383644,90.688545,3.514610e+05,2020-04-19,Femenino,64,Tecnica/Voca.,Casado/a / pareja,...,A veces,Siempre,Siempre,No,No,No,Si,Si,No,Si
1000235.0,Bahamas,Bahamas,6.756267,23.223328,3.514610e+05,2020-04-16,Femenino,44,Maestria o mas,Casado/a / pareja,...,Nunca,A veces,Nunca,No,No,No,No,No,Si,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17001614.0,Uruguay,Uruguay,26.455542,70.345154,3.530912e+06,2020-04-15,Femenino,30,Secundaria,soltero/a / divorciado/a,...,Casi siempre,Siempre,Casi siempre,No,No,No,Si,No,No,No
17017448.0,Uruguay,Uruguay,3.855343,10.251338,3.530912e+06,2020-04-15,Femenino,42,Tecnica/Voca.,Casado/a / pareja,...,A veces,A veces,Nunca,No,No,No,No,No,No,No
17013032.0,Uruguay,Uruguay,0.098829,0.262786,3.530912e+06,2020-04-05,Femenino,21,Tecnica/Voca.,soltero/a / divorciado/a,...,Siempre,Siempre,Siempre,No,No,No,No,No,No,No
17014760.0,Uruguay,Uruguay,,,3.530912e+06,2020-04-06,Femenino,49,Maestria o mas,Casado/a / pareja,...,Siempre,Casi siempre,Casi siempre,No,No,No,No,No,No,No


### 1.2. Exploración de bases de datos

Explorar bases de datos es uno de los pasos esenciales en cualquier proyecto de analítica de datos, pues nos permite identificar aspectos útiles del caso de estudio.<br>

#### Establecer un índice usando el método set_index()

Consideremos nuevamente el archivo `.csv ` del inicio del Notebook. Este corresponde a mediciones de precipitaciones o lluvias (en milímetros). ¿Cómo podríamos indicar a Python que la columna `year` debería ser leída como un índice?

In [11]:
df = pd.read_csv('C:\\Users\\andre\\OneDrive\\Escritorio\\pune_1965_to_2002.csv')
df = df.set_index('Year')
df

Unnamed: 0_level_0,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1965,0.029,0.069,0.0,21.667,17.859,102.111,606.071,402.521,69.511,5.249,16.232,22.075
1966,0.905,0.0,0.0,2.981,63.008,94.088,481.942,59.386,150.624,1.308,41.214,4.132
1967,0.248,3.39,1.32,13.482,11.116,251.314,780.006,181.069,183.757,50.404,8.393,37.685
1968,0.318,3.035,1.704,23.307,7.441,179.872,379.354,171.979,219.884,73.997,23.326,2.02
1969,0.248,2.524,0.334,4.569,6.213,393.682,678.354,397.335,205.413,24.014,24.385,1.951
1970,0.07,0.0,0.001,16.218,68.036,300.546,330.502,283.476,158.64,115.758,0.26,0.0
1971,0.0,0.0,0.0,0.812,57.691,297.187,122.195,372.693,286.056,39.424,0.554,0.0
1972,0.0,0.029,0.0,5.982,19.101,132.413,338.484,68.741,120.415,1.078,24.089,0.143
1973,0.0,2.969,0.234,3.925,14.978,304.484,696.024,256.932,183.206,101.805,5.516,0.0
1974,0.0,0.0,6.427,16.864,51.209,148.697,405.359,319.651,288.533,188.876,0.26,0.0


#### Métodos comunes para inspeccionar Dataframes

A continuación veremos algunos de los métodos que tiene el paquete `pandas` para inspeccionar rápidamente los datos a disposición, que resultan de mucha utilidad para conocer las caracterísitcas de la información cargada.

* `head: `
muestra las primeras n filas.

In [12]:
df.head(5)

Unnamed: 0_level_0,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1965,0.029,0.069,0.0,21.667,17.859,102.111,606.071,402.521,69.511,5.249,16.232,22.075
1966,0.905,0.0,0.0,2.981,63.008,94.088,481.942,59.386,150.624,1.308,41.214,4.132
1967,0.248,3.39,1.32,13.482,11.116,251.314,780.006,181.069,183.757,50.404,8.393,37.685
1968,0.318,3.035,1.704,23.307,7.441,179.872,379.354,171.979,219.884,73.997,23.326,2.02
1969,0.248,2.524,0.334,4.569,6.213,393.682,678.354,397.335,205.413,24.014,24.385,1.951


* `tail: `
muestra las últimas n filas.

In [13]:
df.tail(5)

Unnamed: 0_level_0,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1998,0.008,2.671,0.073,0.377,15.717,238.609,590.663,362.357,243.444,96.324,52.965,0.035
1999,0.0,1.431,0.0,0.642,35.828,415.471,277.137,98.616,225.962,180.3,0.263,0.033
2000,0.0,0.17,0.0,1.193,26.237,371.328,265.417,220.814,147.196,38.246,15.274,8.187
2001,0.147,0.0,2.178,1.528,7.86,247.982,279.547,189.404,158.025,135.518,23.633,0.003
2002,0.231,0.911,0.388,53.266,18.43,509.145,84.936,257.205,78.269,21.486,0.614,0.0


* `columns: ` muestra los nombres de las columnas del `DataFrame`.

In [14]:
df.columns

Index(['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct',
       'Nov', 'Dec'],
      dtype='object')

* `info: ` muestra la información general del `DataFrame`.

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 38 entries, 1965 to 2002
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Jan     38 non-null     float64
 1   Feb     38 non-null     float64
 2   Mar     38 non-null     float64
 3   Apr     38 non-null     float64
 4   May     38 non-null     float64
 5   Jun     38 non-null     float64
 6   Jul     38 non-null     float64
 7   Aug     38 non-null     float64
 8   Sep     38 non-null     float64
 9   Oct     38 non-null     float64
 10  Nov     38 non-null     float64
 11  Dec     38 non-null     float64
dtypes: float64(12)
memory usage: 3.9 KB
