# **CODERHOUSE DS - 22745**
## Clase 6. Introducción a la manipulación de datos con Pandas (Parte II)

## Objetivos

Al final de esta sesión habrás:

**1.** Conocer las estructuras de datos en `pandas`. <br>
**2.** Comprender el uso de `pandas` para la manipulación de grandes volúmenes de datos. <br>

## 1. Librería `pandas`

En la sesión anterior, utilizamos el paquete `pandas` asd

In [2]:
import pandas as pd

### 1.1. Lectura de archivos

A diferencia del paquete `numpy`, la librería `pandas` permite manipular información de diversas fuentes. Con invocar un función, es posible transformar estas fuentes en objetos `Dataframe` dentro del entorno de Python.<br>

#### Importar archivos en formato `.csv`

Los archivos delimitados por comas o 'csv' son uno de los formatos de archivos más comunes en el procesamiento de datos.

In [5]:
pd.read_csv('dataInput/pune_1965_to_2002.csv')

Unnamed: 0,Year,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
0,1965,0.029,0.069,0.0,21.667,17.859,102.111,606.071,402.521,69.511,5.249,16.232,22.075
1,1966,0.905,0.0,0.0,2.981,63.008,94.088,481.942,59.386,150.624,1.308,41.214,4.132
2,1967,0.248,3.39,1.32,13.482,11.116,251.314,780.006,181.069,183.757,50.404,8.393,37.685
3,1968,0.318,3.035,1.704,23.307,7.441,179.872,379.354,171.979,219.884,73.997,23.326,2.02
4,1969,0.248,2.524,0.334,4.569,6.213,393.682,678.354,397.335,205.413,24.014,24.385,1.951
5,1970,0.07,0.0,0.001,16.218,68.036,300.546,330.502,283.476,158.64,115.758,0.26,0.0
6,1971,0.0,0.0,0.0,0.812,57.691,297.187,122.195,372.693,286.056,39.424,0.554,0.0
7,1972,0.0,0.029,0.0,5.982,19.101,132.413,338.484,68.741,120.415,1.078,24.089,0.143
8,1973,0.0,2.969,0.234,3.925,14.978,304.484,696.024,256.932,183.206,101.805,5.516,0.0
9,1974,0.0,0.0,6.427,16.864,51.209,148.697,405.359,319.651,288.533,188.876,0.26,0.0


#### Formato `.csv` con delimitador `;`

Dentro de los archivos de ejmeplo hay uno denominado `"DiccionarioPaises.csv"` que se diferencia del anterior dado que su separador no es una `,` sino un `;`. Esto se puede solucionar muy fácilmente usando `pandas` al establecer el delimitador.<br>
    
    read_csv( "nombre_archivo.csv", delimiter = ';)

In [6]:
pd.read_csv("dataInput/DiccionarioPaises.csv", encoding = "UTF-8", delimiter = ";")

Unnamed: 0,País en español,País en inglés
0,Afganistán,Afghanistan
1,Albania,Albania
2,Alemania,Germany
3,Andorra,Andorra
4,Angola,Angola
...,...,...
204,Vietnam,Vietnam
205,Yemen,Yemen
206,Yibuti,Djibouti
207,Zambia,Zambia


#### Importación de archivos en formato Excel `.xls` o `.xlsx`

Quienes apenas empiezan a incursionar en el mundo de la analítica de datos, pueden haber tenido experiencia previa con archivos de MS-Excel, para este ejercicio se plantea el documento `"ArchivoSoporteS3TU1.xlsx"`, el cuál puede ser fácilmente importado mediante `pandas` con una estructura similar a la siguiente:<br>
    
    read_excel(file = "nombre_archivo.xlsx")

In [12]:
# TODO: DOES NOT WORK
pd.read_excel(file = "dataInput/ArchivoSoporteS3TU1.xlsx")

TypeError: read_excel() got an unexpected keyword argument 'file'

#### Formato `.dta`

Uno de los archivos de ejemplo fué llamado `"pooled_data_public.dta"` que contiene la base de datos completa del BID. Este archivo, al ser de tipo *.dta*, requiere de una función de `pandas` para ser importado a Python.<br>
    
    read_stata(file = "nombre_archivo.dta")

Es un formato interesante ya que excel soporta como maximo hasta el millon y medio de tuplas aprox.

In [None]:
pd.read_stata("pooled_data_public.dta", index_col = 'id')

### 1.2. Exploración de bases de datos

Explorar bases de datos es uno de los pasos esenciales en cualquier proyecto de analítica de datos, pues nos permite identificar aspectos útiles del caso de estudio.<br>

#### Establecer un índice usando el método set_index()

Consideremos nuevamente el archivo `.csv ` del inicio del Notebook. Este corresponde a mediciones de precipitaciones o lluvias (en milímetros). ¿Cómo podríamos indicar a Python que la columna `year` debería ser leída como un índice?

In [None]:
df = pd.read_csv('dataInput/pune_1965_to_2002.csv')
df = df.set_index('Year')
df

#### Métodos comunes para inspeccionar Dataframes

A continuación veremos algunos de los métodos que tiene el paquete `pandas` para inspeccionar rápidamente los datos a disposición, que resultan de mucha utilidad para conocer las caracterísitcas de la información cargada.

* `head`:
muestra las primeras n filas.

In [None]:
df.head(5)

* `tail`:
muestra las últimas n filas.

In [None]:
df.tail(5)

* `columns`: muestra los nombres de las columnas del `DataFrame`.

In [None]:
df.columns

* `info`: muestra la información general del `DataFrame`.

In [None]:
df.info()

* `describe`: muestra medidas de tendencia de las columnas numéricas del `DataFrame`.

In [None]:
# Descripción de los datos por sus columnas
df.describe()

In [None]:
# Descripción de los datos por sus Índices
df.T.describe().round()

* `dtypes`: muestra el tipo de dato de cada columna del `DataFrame`.

In [None]:
# Tipos de datos de las columnas del Dataframe
df.dtypes

* `unique`: muestra los datos únicos de una columna del `DataFrame`.

In [None]:
# Establecer los valores únicos de la columna Enero
df["Jan"].unique()

* `max`: muestra el valor máximo de una columna o índice de un `DataFrame`.

In [None]:
# Calcular el máximo año del índice
df.index.max()

* `min`: muestra el valor minimo de una columna o índice de un `DataFrame`.

In [None]:
# Calcular el mínimo año del índice
df.index.min()

* `sum`: muestra la suma de todos los valores de una columna en específico.

In [None]:
# Suma de los datos de cada mes
datos.sum()

* `mean`: muestra el promedio de todos los valores de un objetoen específico.

In [None]:
# Promedio de precipitaciones en cada año
datos.mean(axis = 'columns')

#### Operaciones con datos `String`

A menudo, tendremos que trabajar con datos en forma de Strings, es decir cadenas de caracteres o texto. Para estos ejemplos, usaremos el dataset de presidentes de EEUU.

In [None]:
# Leer archivo de datos usando Pandas

datos = pd.read_csv("us_presidents 2.csv")
datos

* el método `str.upper()` permite convertir texto a mayúscula

In [None]:
datos['president'].str.upper()

* Usando `str.len()` se puede conocer la longitud total, incluyendo espacios y otros caracteres que puedan aparecer

In [None]:
datos['president'].str.len()

* Empleando `str.split()` se convertir los elementos en una lista.

In [None]:
datos['president'].str.split()

#### Método `Group by`

El método groupby permite realizar las siguientes tres operaciones a la vez: 
* (1) Separar en grupos el `DataFrame` de acuerdo a un criterio.
* (2) Aplicar una función a cada grupo. 
* (3) Combinar los resultados en un nuevo `DataFrame`.

La sintaxis para usar groupby es la siguiente:

    pandas.DataFrame.groupby(by, axis, level)

* **by:** indica el criterio para realizar el paso (1). Puede usarse un diccionario, un `Series`, entre otros.

* **axis:** por defecto es 0. <br><br>
    * `axis = 1`: indica que vamos a agrupar columnas. <br>
    * `axis = 0`: indica que vamos a agrupar filas.<br><br>

* **level:** indica por nombre o por posición a cuál de los niveles del índice múltiple se le aplicará el método.

In [None]:
# Importación de los datos
Demografia = pd.read_excel("dataInput/ArchivoSoporteS3TU1.xlsx")
Demografia

In [None]:
Demografia.groupby('Ciudad Residencia')['Ingresos'].mean()

### 1.3. Series de Tiempo

Son tipos de datos especiales donde el tiempo toma un rol fundamental. Observamos cambios en los valores de la variable a lo largo del tiempo. Si ignoramos esa dimensión temporal, los valores pierden contexto. <br>

Python provee tres tipos de datos relacionados al tiempo:
* **Timestamp** o marca de tiempo: representan un punto en el tiempo. Por ejemplo, fecha y hora.
* **Período**: representan un intervalo de tiempo. Por ejemplo, los minutos transcurridos desde que comenzó la clase hasta ahora.
* **Duración**: representa una duración medida en tiempo, pero independientemente del momento en que sucede. Por ejemplo, 15 minutos.

#### Convertir String a Timestamp

In [None]:
fecha = pd.to_datetime('03/01/2020',dayfirst=True)
fecha

#### Crear un rango de fechas

In [None]:
fin = pd.to_datetime('10/01/2020',dayfirst=True)
fechas_1 = pd.date_range(start=fecha, end=fin)
fechas_1

#### Periodos de tiempo en rangos (dias)

In [None]:
fechas_2 = pd.date_range(start=fecha, periods=8)
fechas_2

#### Periodos de tiempo en rangos (meses)

In [None]:
fechas_3 = pd.date_range(start= fecha, periods= 8, freq='M')
fechas_3

#### Operaciones con fechas en Python usando `pandas`

* Diferencia entre fechas   (por defecto es en días)

In [None]:
fecha_final = fechas_3[7]     # 7 hace referencia al último elemento del índice creado anteriormente
print(fecha_final)
fecha_inicial = fechas_3[0]   # 0 se refiere al primer elemento del índice
print(fecha_inicial)

fecha_final - fecha_inicial

* Diferencia entre fechas (modificado para meses u otro periodo de tiempo)

In [None]:
dif_meses = fechas_3[7].to_period('M') - fechas_3[0].to_period('M') 
dif_meses

#### Indexar `dataframe` con objetos de tipo tiempo

In [None]:
# Datos de los presidente de EUA
datos['start']

In [None]:
inicio_presidencia = pd.DatetimeIndex(datos['start'])
inicio_presidencia

In [None]:
Serie_presidentes = pd.Series(datos['president'].values,index=inicio_presidencia)
Serie_presidentes

### 1.4. Filtrado de un `dataframe` según un periodo de tiempo

Consideremos el evento en que se quiere conocer cuales son los presidentes que han tenido los Estados Unidos desde el año 1975. ¿Como podemos lograrlo mediante el uso de Python y el paquete `pandas`?

In [None]:
filtro = (Serie_presidentes.index >= '1975-01-01')
Serie_presidentes[filtro]

### 1.5. Ayuda para el Desafío propuesto

Consideremos el evento en que se quiere conocer cuales son los presidentes que han tenido los Estados Unidos desde el año 1975. ¿Como podemos lograrlo mediante el uso de Python y el paquete `pandas`?

In [None]:
Desafio = pd.read_csv("Summer-Olympic-medals-1976-to-2008.csv")
year_datetime = pd.to_datetime(Desafio['Year'], format = '%Y%')
year_datetime