## Introducción a la manipulación de datos con Pandas (Parte II)

## Objetivos

Al final de esta sesión habrás:

**1.** Conocer las estructuras de datos en `pandas`. <br>
**2.** Comprender el uso de `pandas` para la manipulación de grandes volúmenes de datos. <br>

## 1. Librería `pandas`

En la sesión anterior, utilizamos el paquete `pandas`:

In [2]:
import pandas as pd

### 1.1. Lectura de archivos

A diferencia del paquete `numpy`, la librería `pandas` permite manipular información de diversas fuentes. Con invocar una función, es posible transformar estas fuentes en objetos `Dataframe` dentro del entorno de Python.<br>

#### Importar archivos en formato `.csv`

Los archivos delimitados por comas o 'csv' son uno de los formatos de archivos más comunes en el procesamiento de datos.

In [3]:
pd.read_csv('C:\\Users\\andre\\OneDrive\\Escritorio\\pune_1965_to_2002.csv')

Unnamed: 0,Year,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
0,1965,0.029,0.069,0.0,21.667,17.859,102.111,606.071,402.521,69.511,5.249,16.232,22.075
1,1966,0.905,0.0,0.0,2.981,63.008,94.088,481.942,59.386,150.624,1.308,41.214,4.132
2,1967,0.248,3.39,1.32,13.482,11.116,251.314,780.006,181.069,183.757,50.404,8.393,37.685
3,1968,0.318,3.035,1.704,23.307,7.441,179.872,379.354,171.979,219.884,73.997,23.326,2.02
4,1969,0.248,2.524,0.334,4.569,6.213,393.682,678.354,397.335,205.413,24.014,24.385,1.951
5,1970,0.07,0.0,0.001,16.218,68.036,300.546,330.502,283.476,158.64,115.758,0.26,0.0
6,1971,0.0,0.0,0.0,0.812,57.691,297.187,122.195,372.693,286.056,39.424,0.554,0.0
7,1972,0.0,0.029,0.0,5.982,19.101,132.413,338.484,68.741,120.415,1.078,24.089,0.143
8,1973,0.0,2.969,0.234,3.925,14.978,304.484,696.024,256.932,183.206,101.805,5.516,0.0
9,1974,0.0,0.0,6.427,16.864,51.209,148.697,405.359,319.651,288.533,188.876,0.26,0.0


#### Formato `.csv` con delimitador `;`

Dado el siguiente archivo, contenido dentro del repositorio: `"DiccionarioPaises.csv"` vemos que se diferencia del anterior, dado que su separador no es una `,` sino un `;`. Esto se puede solucionar muy fácilmente usando `pandas` al establecer el delimitador.<br>
    
    read_csv(file = "nombre_archivo.csv", delimiter = ';)

In [4]:
pd.read_csv('C:\\Users\\andre\\OneDrive\\Escritorio\\DiccionarioPaises.csv', encoding = "UTF-8", delimiter = ";")

Unnamed: 0,País en español,País en inglés
0,Afganistán,Afghanistan
1,Albania,Albania
2,Alemania,Germany
3,Andorra,Andorra
4,Angola,Angola
...,...,...
204,Vietnam,Vietnam
205,Yemen,Yemen
206,Yibuti,Djibouti
207,Zambia,Zambia


#### Importación de archivos en formato Excel `.xls` o `.xlsx`

Quienes apenas empiezan a incursionar en el mundo de la analítica de datos, pueden haber tenido experiencia previa con archivos de MS-Excel, para este ejercicio contamos con el documento `"ArchivoSoporteS3TU1.xlsx"`, el cuál puede ser fácilmente importado mediante `pandas` con una estructura similar a la siguiente:<br>
    
    read_excel(file = "nombre_archivo.xlsx")

In [5]:
pd.read_excel("C:\\Users\\andre\\OneDrive\\Escritorio\\ArchivoSoporteS3TU1.xlsx")

Unnamed: 0,Nombre,Edad,Ingresos,Ciudad Residencia
0,Juan,48,71,Bogotá
1,Maria,29,150,Lima
2,Jorge,43,98,Buenos Aires
3,Pablo,50,105,Bogotá
4,Laura,33,80,La Paz
5,Esteban,21,127,Lima
6,Juliana,48,131,La Paz
7,Valentina,47,89,Bogotá
8,Silvana,43,109,Buenos Aires


#### Formato `.dta`

Uno de los archivos de ejemplo fué llamado `"pooled_data_public.dta"` que contiene la base de datos completa del BID. Este archivo, al ser de tipo *.dta*, requiere de una función de `pandas` para ser importado a Python.<br>
    
    read_stata(file = "nombre_archivo.dta")

In [6]:
pd.read_stata("C:\\Users\\andre\\OneDrive\\Escritorio\\pooled_data_public.dta", index_col = 'id')

Unnamed: 0_level_0,country_code,country_name,weight,weight_pop,pop,recordeddate,genero,edad,educ,estcivil,...,medios_covid_periodicos,medios_covid_tv,medios_covid_radio,nps_medio_redessoc,nps_medio_sms,nps_medio_periodico,nps_medio_tv,nps_medio_radio,nps_medio_website,nps_medio_otro
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1000060.0,Bahamas,Bahamas,647.764465,2226.561768,3.514610e+05,2020-04-18,Femenino,20,Secundaria,soltero/a / divorciado/a,...,Siempre,A veces,Nunca,No,No,No,No,No,No,No
1000734.0,Bahamas,Bahamas,9.053495,31.119595,3.514610e+05,2020-04-16,Femenino,34,Universidad,Casado/a / pareja,...,A veces,Casi siempre,Casi siempre,Si,Si,No,Si,Si,No,No
1000057.0,Bahamas,Bahamas,0.413436,1.421105,3.514610e+05,2020-04-20,Femenino,22,Tecnica/Voca.,soltero/a / divorciado/a,...,-99,Siempre,-99,No,No,No,No,No,No,No
1000120.0,Bahamas,Bahamas,26.383644,90.688545,3.514610e+05,2020-04-19,Femenino,64,Tecnica/Voca.,Casado/a / pareja,...,A veces,Siempre,Siempre,No,No,No,Si,Si,No,Si
1000235.0,Bahamas,Bahamas,6.756267,23.223328,3.514610e+05,2020-04-16,Femenino,44,Maestria o mas,Casado/a / pareja,...,Nunca,A veces,Nunca,No,No,No,No,No,Si,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17001614.0,Uruguay,Uruguay,26.455542,70.345154,3.530912e+06,2020-04-15,Femenino,30,Secundaria,soltero/a / divorciado/a,...,Casi siempre,Siempre,Casi siempre,No,No,No,Si,No,No,No
17017448.0,Uruguay,Uruguay,3.855343,10.251338,3.530912e+06,2020-04-15,Femenino,42,Tecnica/Voca.,Casado/a / pareja,...,A veces,A veces,Nunca,No,No,No,No,No,No,No
17013032.0,Uruguay,Uruguay,0.098829,0.262786,3.530912e+06,2020-04-05,Femenino,21,Tecnica/Voca.,soltero/a / divorciado/a,...,Siempre,Siempre,Siempre,No,No,No,No,No,No,No
17014760.0,Uruguay,Uruguay,,,3.530912e+06,2020-04-06,Femenino,49,Maestria o mas,Casado/a / pareja,...,Siempre,Casi siempre,Casi siempre,No,No,No,No,No,No,No


### 1.2. Exploración de bases de datos

Explorar bases de datos es uno de los pasos esenciales en cualquier proyecto de analítica de datos, pues nos permite identificar aspectos útiles del caso de estudio.<br>

#### Establecer un índice usando el método set_index()

Consideremos nuevamente el archivo `.csv ` del inicio del Notebook. Este corresponde a mediciones de precipitaciones o lluvias (en milímetros). ¿Cómo podríamos indicar a Python que la columna `year` debería ser leída como un índice?

In [7]:
df = pd.read_csv('C:\\Users\\andre\\OneDrive\\Escritorio\\pune_1965_to_2002.csv')
df = df.set_index('Year')
df

Unnamed: 0_level_0,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1965,0.029,0.069,0.0,21.667,17.859,102.111,606.071,402.521,69.511,5.249,16.232,22.075
1966,0.905,0.0,0.0,2.981,63.008,94.088,481.942,59.386,150.624,1.308,41.214,4.132
1967,0.248,3.39,1.32,13.482,11.116,251.314,780.006,181.069,183.757,50.404,8.393,37.685
1968,0.318,3.035,1.704,23.307,7.441,179.872,379.354,171.979,219.884,73.997,23.326,2.02
1969,0.248,2.524,0.334,4.569,6.213,393.682,678.354,397.335,205.413,24.014,24.385,1.951
1970,0.07,0.0,0.001,16.218,68.036,300.546,330.502,283.476,158.64,115.758,0.26,0.0
1971,0.0,0.0,0.0,0.812,57.691,297.187,122.195,372.693,286.056,39.424,0.554,0.0
1972,0.0,0.029,0.0,5.982,19.101,132.413,338.484,68.741,120.415,1.078,24.089,0.143
1973,0.0,2.969,0.234,3.925,14.978,304.484,696.024,256.932,183.206,101.805,5.516,0.0
1974,0.0,0.0,6.427,16.864,51.209,148.697,405.359,319.651,288.533,188.876,0.26,0.0


#### Métodos comunes para inspeccionar Dataframes

A continuación veremos algunos de los métodos que tiene el paquete `pandas` para inspeccionar rápidamente los datos a disposición, que resultan de mucha utilidad para conocer las caracterísitcas de la información cargada.

* `head: `
muestra las primeras n filas.

In [8]:
df.head(5)

Unnamed: 0_level_0,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1965,0.029,0.069,0.0,21.667,17.859,102.111,606.071,402.521,69.511,5.249,16.232,22.075
1966,0.905,0.0,0.0,2.981,63.008,94.088,481.942,59.386,150.624,1.308,41.214,4.132
1967,0.248,3.39,1.32,13.482,11.116,251.314,780.006,181.069,183.757,50.404,8.393,37.685
1968,0.318,3.035,1.704,23.307,7.441,179.872,379.354,171.979,219.884,73.997,23.326,2.02
1969,0.248,2.524,0.334,4.569,6.213,393.682,678.354,397.335,205.413,24.014,24.385,1.951


* `tail: `
muestra las últimas n filas.

In [9]:
df.tail(5)

Unnamed: 0_level_0,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1998,0.008,2.671,0.073,0.377,15.717,238.609,590.663,362.357,243.444,96.324,52.965,0.035
1999,0.0,1.431,0.0,0.642,35.828,415.471,277.137,98.616,225.962,180.3,0.263,0.033
2000,0.0,0.17,0.0,1.193,26.237,371.328,265.417,220.814,147.196,38.246,15.274,8.187
2001,0.147,0.0,2.178,1.528,7.86,247.982,279.547,189.404,158.025,135.518,23.633,0.003
2002,0.231,0.911,0.388,53.266,18.43,509.145,84.936,257.205,78.269,21.486,0.614,0.0


* `columns: ` muestra los nombres de las columnas del `DataFrame`.

In [10]:
df.columns

Index(['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct',
       'Nov', 'Dec'],
      dtype='object')

* `info: ` muestra la información general del `DataFrame`.

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 38 entries, 1965 to 2002
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Jan     38 non-null     float64
 1   Feb     38 non-null     float64
 2   Mar     38 non-null     float64
 3   Apr     38 non-null     float64
 4   May     38 non-null     float64
 5   Jun     38 non-null     float64
 6   Jul     38 non-null     float64
 7   Aug     38 non-null     float64
 8   Sep     38 non-null     float64
 9   Oct     38 non-null     float64
 10  Nov     38 non-null     float64
 11  Dec     38 non-null     float64
dtypes: float64(12)
memory usage: 3.9 KB


* `describe: `  muestra medidas de tendencia de las columnas numéricas del `DataFrame`.

In [12]:
# Descripción de los datos por sus columnas
df.describe()

Unnamed: 0,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
count,38.0,38.0,38.0,38.0,38.0,38.0,38.0,38.0,38.0,38.0,38.0,38.0
mean,0.294368,1.101132,1.677184,12.381237,25.059789,337.096395,430.010395,277.088342,201.111711,73.245263,25.223474,6.069632
std,0.64051,1.741219,2.486516,13.671071,22.451708,171.666565,177.976444,132.245356,123.73632,62.936775,31.80618,11.725716
min,0.0,0.0,0.0,0.061,0.508,94.088,84.936,59.386,44.574,1.078,0.26,0.0
25%,0.0,0.0,0.0,2.29175,7.00525,226.18025,322.461,183.15275,105.936,21.9705,3.73275,0.0
50%,0.008,0.2475,0.596,5.4895,18.1445,312.1,415.0795,243.2305,180.9665,49.8305,14.686,0.4965
75%,0.248,1.9485,2.076,19.7965,33.066,412.56825,555.28425,401.2245,242.4335,115.65575,37.00675,4.1515
max,3.013,8.41,9.619,53.266,80.539,773.737,780.006,541.579,613.522,225.904,122.809,37.685


In [13]:
# Descripción de los datos por sus Índices
df.T.describe().round()

Year,1965,1966,1967,1968,1969,1970,1971,1972,1973,1974,...,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002
count,12.0,12.0,12.0,12.0,12.0,12.0,12.0,12.0,12.0,12.0,...,12.0,12.0,12.0,12.0,12.0,12.0,12.0,12.0,12.0,12.0
mean,105.0,75.0,127.0,91.0,145.0,106.0,98.0,59.0,131.0,119.0,...,101.0,166.0,101.0,136.0,154.0,134.0,103.0,91.0,87.0,85.0
std,194.0,137.0,223.0,122.0,227.0,131.0,139.0,100.0,209.0,148.0,...,142.0,272.0,154.0,194.0,244.0,189.0,140.0,128.0,108.0,152.0
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,4.0,1.0,7.0,3.0,2.0,0.0,0.0,0.0,2.0,0.0,...,2.0,2.0,2.0,2.0,4.0,0.0,0.0,1.0,1.0,1.0
50%,20.0,23.0,26.0,23.0,15.0,42.0,20.0,13.0,10.0,34.0,...,21.0,25.0,25.0,9.0,27.0,34.0,19.0,21.0,16.0,20.0
75%,78.0,71.0,182.0,174.0,252.0,190.0,163.0,82.0,202.0,214.0,...,169.0,145.0,127.0,206.0,155.0,240.0,192.0,166.0,166.0,80.0
max,606.0,482.0,780.0,379.0,678.0,331.0,373.0,338.0,696.0,405.0,...,450.0,749.0,501.0,559.0,674.0,591.0,415.0,371.0,280.0,509.0


* `dtypes: ` muestra el tipo de dato de cada columna del `DataFrame`.

In [14]:
# Tipos de datos de las columnas del Dataframe
df.dtypes

Jan    float64
Feb    float64
Mar    float64
Apr    float64
May    float64
Jun    float64
Jul    float64
Aug    float64
Sep    float64
Oct    float64
Nov    float64
Dec    float64
dtype: object

* `unique: ` muestra los datos únicos de una columna del `DataFrame`.

In [15]:
# Muestra los valores únicos de la columna Enero
df["Jan"].unique()

array([0.029, 0.905, 0.248, 0.318, 0.07 , 0.   , 0.333, 0.061, 0.008,
       2.257, 0.395, 0.025, 3.013, 0.004, 0.879, 0.695, 0.016, 1.284,
       0.147, 0.231])

* `max: ` muestra el valor máximo de una columna o índice de un `DataFrame`.

In [16]:
# Calcular el máximo año del índice
df.index.max()

2002

* `min: ` muestra el valor minimo de una columna o índice de un `DataFrame`.

In [17]:
# Calcular el mínimo año del índice
df.index.min()

1965

* `sum: ` muestra la suma de todos los valores de una columna en específico.

In [18]:
# Suma de los datos de cada mes
df.sum()

Jan       11.186
Feb       41.843
Mar       63.733
Apr      470.487
May      952.272
Jun    12809.663
Jul    16340.395
Aug    10529.357
Sep     7642.245
Oct     2783.320
Nov      958.492
Dec      230.646
dtype: float64

* `mean: ` muestra el promedio de todos los valores de un objetoen específico.

In [19]:
# Promedio de precipitaciones en cada año
df.mean(axis = 'columns')

Year
1965    105.282833
1966     74.965667
1967    126.848667
1968     90.519750
1969    144.918500
1970    106.125583
1971     98.051000
1972     59.206250
1973    130.839417
1974    118.823000
1975    148.153167
1976    161.763917
1977    100.179500
1978     97.381917
1979    147.432250
1980    105.682083
1981    130.230083
1982     78.590583
1983    134.745667
1984    128.246750
1985    101.237667
1986    105.664083
1987     99.833250
1988    151.887417
1989    116.668667
1990    147.191167
1991    124.771333
1992    110.323583
1993    100.854333
1994    165.640750
1995    100.755667
1996    135.944250
1997    153.736667
1998    133.603583
1999    102.973583
2000     91.171833
2001     87.152083
2002     85.406750
dtype: float64

#### Operaciones con datos `String`

A menudo, tendremos que trabajar con datos en forma de Strings, es decir cadenas de caracteres o texto. Para estos ejemplos, usaremos el dataset de presidentes de EEUU.

In [20]:
# Leer archivo de datos usando Pandas

datos = pd.read_csv('C:\\Users\\andre\\OneDrive\\Escritorio\\us_presidents 2.csv', encoding = "UTF-8", delimiter = ",")
datos

Unnamed: 0.1,Unnamed: 0,S.No.,start,end,president,prior,party,vice
0,0,1,"April 30, 1789","March 4, 1797",George Washington,Commander-in-Chief of the Continental Army ...,Nonpartisan [13],John Adams
1,1,2,"March 4, 1797","March 4, 1801",John Adams,1st Vice President of the United States,Federalist,Thomas Jefferson
2,2,3,"March 4, 1801","March 4, 1809",Thomas Jefferson,2nd Vice President of the United States,Democratic- Republican,Aaron Burr
3,3,4,"March 4, 1809","March 4, 1817",James Madison,5th United States Secretary of State (1801–...,Democratic- Republican,George Clinton
4,4,5,"March 4, 1817","March 4, 1825",James Monroe,7th United States Secretary of State (1811–...,Democratic- Republican,Daniel D. Tompkins
5,5,6,"March 4, 1825","March 4, 1829",John Quincy Adams,8th United States Secretary of State (1817–...,Democratic- Republican,John C. Calhoun
6,6,7,"March 4, 1829","March 4, 1837",Andrew Jackson,U.S. Senator ( Class 2 ) from Tennessee ...,Democratic,John C. Calhoun
7,7,8,"March 4, 1837","March 4, 1841",Martin Van Buren,8th Vice President of the United States,Democratic,Richard Mentor Johnson
8,8,9,"March 4, 1841","April 4, 1841",William Henry Harrison,United States Minister to Colombia (1828–1829),Whig,John Tyler
9,9,10,"April 4, 1841","March 4, 1845",John Tyler,10th Vice President of the United States,"Whig April 4, 1841 – September 13, 1841",Office vacant


* el método `str.upper()` permite convertir texto a mayúscula:

In [21]:
datos['president'].str.upper()

0          GEORGE WASHINGTON
1                 JOHN ADAMS
2           THOMAS JEFFERSON
3              JAMES MADISON
4               JAMES MONROE
5          JOHN QUINCY ADAMS
6             ANDREW JACKSON
7           MARTIN VAN BUREN
8     WILLIAM HENRY HARRISON
9                 JOHN TYLER
10             JAMES K. POLK
11            ZACHARY TAYLOR
12          MILLARD FILLMORE
13           FRANKLIN PIERCE
14            JAMES BUCHANAN
15           ABRAHAM LINCOLN
16            ANDREW JOHNSON
17          ULYSSES S. GRANT
18       RUTHERFORD B. HAYES
19         JAMES A. GARFIELD
20         CHESTER A. ARTHUR
21          GROVER CLEVELAND
22         BENJAMIN HARRISON
23          GROVER CLEVELAND
24          WILLIAM MCKINLEY
25        THEODORE ROOSEVELT
26       WILLIAM HOWARD TAFT
27            WOODROW WILSON
28         WARREN G. HARDING
29           CALVIN COOLIDGE
30            HERBERT HOOVER
31     FRANKLIN D. ROOSEVELT
32           HARRY S. TRUMAN
33      DWIGHT D. EISENHOWER
34           J

* Usando `str.len()` se puede conocer la longitud total, incluyendo espacios y otros caracteres que puedan aparecer:

In [22]:
datos['president'].str.len()

0     17
1     10
2     16
3     13
4     12
5     17
6     14
7     16
8     22
9     10
10    13
11    14
12    16
13    15
14    14
15    15
16    14
17    16
18    19
19    17
20    17
21    16
22    17
23    16
24    16
25    18
26    19
27    14
28    17
29    15
30    14
31    21
32    15
33    20
34    15
35    17
36    13
37    11
38    12
39    13
40    17
41    12
42    14
43    12
44    12
Name: president, dtype: int64

* Empleando `str.split()` se convertir los elementos en una lista.

In [23]:
datos['president'].str.split()

0           [George, Washington]
1                  [John, Adams]
2            [Thomas, Jefferson]
3               [James, Madison]
4                [James, Monroe]
5          [John, Quincy, Adams]
6              [Andrew, Jackson]
7           [Martin, Van, Buren]
8     [William, Henry, Harrison]
9                  [John, Tyler]
10             [James, K., Polk]
11             [Zachary, Taylor]
12           [Millard, Fillmore]
13            [Franklin, Pierce]
14             [James, Buchanan]
15            [Abraham, Lincoln]
16             [Andrew, Johnson]
17          [Ulysses, S., Grant]
18       [Rutherford, B., Hayes]
19         [James, A., Garfield]
20         [Chester, A., Arthur]
21           [Grover, Cleveland]
22          [Benjamin, Harrison]
23           [Grover, Cleveland]
24           [William, McKinley]
25         [Theodore, Roosevelt]
26       [William, Howard, Taft]
27             [Woodrow, Wilson]
28         [Warren, G., Harding]
29            [Calvin, Coolidge]
30        

#### Método `Group by`

El método groupby permite realizar las siguientes tres operaciones a la vez: 
* (1) Separar en grupos el `DataFrame` de acuerdo a un criterio.
* (2) Aplicar una función a cada grupo. 
* (3) Combinar los resultados en un nuevo `DataFrame`.

La sintaxis para usar groupby es la siguiente:

    pandas.DataFrame.groupby(by, axis, level)

* **by:** indica el criterio para realizar el paso (1). Puede usarse un diccionario, una `Serie`, entre otros.

* **axis:** por defecto es 0. <br><br>
    * `axis = 1`: indica que vamos a agrupar columnas. <br>
    * `axis = 0`: indica que vamos a agrupar filas.<br><br>

* **level:** indica por nombre o por posición a cuál de los niveles del índice múltiple se le aplicará el método.

In [24]:
# Importación de los datos
Demografia = pd.read_excel("C:\\Users\\andre\\OneDrive\\Escritorio\\ArchivoSoporteS3TU1.xlsx")
Demografia

Unnamed: 0,Nombre,Edad,Ingresos,Ciudad Residencia
0,Juan,48,71,Bogotá
1,Maria,29,150,Lima
2,Jorge,43,98,Buenos Aires
3,Pablo,50,105,Bogotá
4,Laura,33,80,La Paz
5,Esteban,21,127,Lima
6,Juliana,48,131,La Paz
7,Valentina,47,89,Bogotá
8,Silvana,43,109,Buenos Aires


In [25]:
Demografia.groupby('Ciudad Residencia')['Ingresos'].mean()

Ciudad Residencia
Bogotá           88.333333
Buenos Aires    103.500000
La Paz          105.500000
Lima            138.500000
Name: Ingresos, dtype: float64

### 1.3. Series de Tiempo

Son tipos de datos especiales donde el tiempo toma un rol fundamental. Observamos cambios en los valores de la variable a lo largo del tiempo. Si ignoramos esa dimensión temporal, los valores pierden contexto. <br>

Python provee tres tipos de datos relacionados al tiempo:
* **Timestamp** o marca de tiempo: representan un punto en el tiempo. Por ejemplo, fecha y hora.
* **Período**: representan un intervalo de tiempo. Por ejemplo, los minutos transcurridos desde que comenzó la clase hasta ahora.
* **Duración**: representa una duración medida en tiempo, pero independientemente del momento en que sucede. Por ejemplo, 15 minutos.

#### Convertir String a `Timestamp`

In [26]:
fecha = pd.to_datetime('03/01/2020', dayfirst=True)
fecha

Timestamp('2020-01-03 00:00:00')

#### Crear un rango de fechas

In [27]:
fin = pd.to_datetime('10/01/2020', dayfirst = True)
fechas_1 = pd.date_range(start = fecha, end = fin)
fechas_1                                                # Rango de fechas

DatetimeIndex(['2020-01-03', '2020-01-04', '2020-01-05', '2020-01-06',
               '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

#### Periodos de tiempo en rangos (dias)

In [28]:
fechas_2 = pd.date_range(start=fecha, periods=8)        # Usamos períodos en días
fechas_2

DatetimeIndex(['2020-01-03', '2020-01-04', '2020-01-05', '2020-01-06',
               '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

#### Periodos de tiempo en rangos (meses)

In [29]:
fechas_3 = pd.date_range(start= fecha, periods= 8, freq='M')
fechas_3

DatetimeIndex(['2020-01-31', '2020-02-29', '2020-03-31', '2020-04-30',
               '2020-05-31', '2020-06-30', '2020-07-31', '2020-08-31'],
              dtype='datetime64[ns]', freq='M')

#### Operaciones con fechas en Python usando `pandas`

* Diferencia entre fechas   (por defecto es en días)

In [30]:
fecha_final = fechas_3[7]     # 7 hace referencia al último elemento del índice creado anteriormente
print(fecha_final)
fecha_inicial = fechas_3[0]   # 0 se refiere al primer elemento del índice
print(fecha_inicial)

fecha_final - fecha_inicial

2020-08-31 00:00:00
2020-01-31 00:00:00


Timedelta('213 days 00:00:00')

* Diferencia entre fechas (modificado para meses u otro periodo de tiempo)

In [31]:
dif_meses = fechas_3[7].to_period('M') - fechas_3[0].to_period('M') 
dif_meses

<7 * MonthEnds>

#### Indexar `dataframe` con objetos de tipo tiempo

In [32]:
# Datos de los presidente de EUA
datos['start']

0         April 30, 1789
1          March 4, 1797
2          March 4, 1801
3          March 4, 1809
4          March 4, 1817
5          March 4, 1825
6          March 4, 1829
7          March 4, 1837
8          March 4, 1841
9          April 4, 1841
10         March 4, 1845
11         March 4, 1849
12          July 9, 1850
13         March 4, 1853
14         March 4, 1857
15         March 4, 1861
16        April 15, 1865
17         March 4, 1869
18         March 4, 1877
19         March 4, 1881
20    September 19, 1881
21         March 4, 1885
22         March 4, 1889
23         March 4, 1893
24         March 4, 1897
25    September 14, 1901
26         March 4, 1909
27         March 4, 1913
28         March 4, 1921
29        August 2, 1923
30         March 4, 1929
31         March 4, 1933
32        April 12, 1945
33      January 20, 1953
34      January 20, 1961
35     November 22, 1963
36      January 20, 1969
37        August 9, 1974
38      January 20, 1977
39      January 20, 1981


In [34]:
# Consultamos los inicios de presidencia de cada presidente:
inicio_presidencia = pd.DatetimeIndex(datos['start'])
inicio_presidencia

DatetimeIndex(['1789-04-30', '1797-03-04', '1801-03-04', '1809-03-04',
               '1817-03-04', '1825-03-04', '1829-03-04', '1837-03-04',
               '1841-03-04', '1841-04-04', '1845-03-04', '1849-03-04',
               '1850-07-09', '1853-03-04', '1857-03-04', '1861-03-04',
               '1865-04-15', '1869-03-04', '1877-03-04', '1881-03-04',
               '1881-09-19', '1885-03-04', '1889-03-04', '1893-03-04',
               '1897-03-04', '1901-09-14', '1909-03-04', '1913-03-04',
               '1921-03-04', '1923-08-02', '1929-03-04', '1933-03-04',
               '1945-04-12', '1953-01-20', '1961-01-20', '1963-11-22',
               '1969-01-20', '1974-08-09', '1977-01-20', '1981-01-20',
               '1989-01-20', '1993-01-20', '2001-01-20', '2009-01-20',
               '2017-01-20'],
              dtype='datetime64[ns]', name='start', freq=None)

In [36]:
# Creamos listas con fecha de inicio y nombre de presidentes:
Serie_presidentes = pd.Series(datos['president'].values, index = inicio_presidencia)
Serie_presidentes

start
1789-04-30         George Washington
1797-03-04                John Adams
1801-03-04          Thomas Jefferson
1809-03-04             James Madison
1817-03-04              James Monroe
1825-03-04         John Quincy Adams
1829-03-04            Andrew Jackson
1837-03-04          Martin Van Buren
1841-03-04    William Henry Harrison
1841-04-04                John Tyler
1845-03-04             James K. Polk
1849-03-04            Zachary Taylor
1850-07-09          Millard Fillmore
1853-03-04           Franklin Pierce
1857-03-04            James Buchanan
1861-03-04           Abraham Lincoln
1865-04-15            Andrew Johnson
1869-03-04          Ulysses S. Grant
1877-03-04       Rutherford B. Hayes
1881-03-04         James A. Garfield
1881-09-19         Chester A. Arthur
1885-03-04          Grover Cleveland
1889-03-04         Benjamin Harrison
1893-03-04          Grover Cleveland
1897-03-04          William McKinley
1901-09-14        Theodore Roosevelt
1909-03-04       William Howard 

### 1.4. Filtrado de un `dataframe` según un periodo de tiempo

Consideremos el evento en que se quiere conocer cuales son los presidentes que han tenido los Estados Unidos desde el año 1975. ¿Como podemos lograrlo mediante el uso de Python y el paquete `pandas`?

In [37]:
filtro = (Serie_presidentes.index >= '1975-01-01')
Serie_presidentes[filtro]

start
1977-01-20         Jimmy Carter
1981-01-20        Ronald Reagan
1989-01-20    George H. W. Bush
1993-01-20         Bill Clinton
2001-01-20       George W. Bush
2009-01-20         Barack Obama
2017-01-20         Donald Trump
dtype: object