![alt text](https://pandas.pydata.org/docs/_static/pandas.svg)

# Libreria Pandas

Pandas es una herramienta de análisis y manipulación de datos de código abierto rápida, potente, flexible y fácil de usar,
construido sobre el lenguaje de programación Python.

https://pandas.pydata.org/

Para instalar Pandas:
````
pip install pandas
````

----

# Tabla de contenidos

* [1. Pandas](#1.-Pandas)
* [2. Series](#2.-Series)
* [3. Dataframe](#3.-Dataframe)
* [4. Operaciones sobre Dataframe](#4.-Operaciones-sobre-Dataframe)
* [5. Interoperabilidad con Numpy](#5.-Interoperabilidad-con-Numpy)

---

### 1. Pandas

Pandas es una librería construida sobre Numpy que ofrece estructuras de datos de alto nivel que facilitan el análisis de datos desde Python.

Se van a estudiar dos estructuras de datos:
* Series.
* DataFrame.

Antes de trabajar con estas estructuras se importan las librerías necesarias:

In [2]:
import numpy as npy
import pandas as pd
from pandas import *

### 2. Series

Una serie es un objeto como un array que esta formado por un array de datos y un array de etiquetas denominado índice.
El array de datos puede ser de 3 tipos:

__ndarray__

Si el array de datos en un ndarray, entonces el índice debe ser de la misma longitud que el array de datos. 


In [8]:
s = Series([1,2,3,4,5], index=['a', 'b', 'c', 'd', 'e'])

In [9]:
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [11]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

   Si ningún índice es pasado, entonces se crea uno formado por valores que van desde [0,…,len(data)-1]

In [10]:
Series([1,2,3,4,5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

__Diccionario__

Si se pasa un índice entonces los valores del diccionario son asociados a los valores del índice.

In [12]:
d = {'a' : 0., 'b' : 1., 'c' : 2.}

In [13]:
Series(d, index=['b', 'c', 'd', 'a'])

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

Si no se proporciona un índice, entonces se construye el índice a partir de las claves ordenadas del diccionario.

In [None]:
d = {'a' : 0., 'b' : 1., 'c' : 2.}

In [None]:
Series(d)

__Valor escalar__

En este caso se debe proporcionar un índice, y el valor será repetido tantas veces como la longitude del índice.

In [None]:
Series(5., index=['a', 'b', 'c', 'd', 'e'])

Las series actúan de forma similar a ndarray, siendo un argumento válido de funciones de Numpy.

In [None]:
s = Series([1,2,3,4,5], index=['a', 'b', 'c', 'd', 'e'])

In [None]:
s[0]

In [None]:
s[:3]

In [None]:
s.median()

In [None]:
s[s > s.median()]

In [None]:
s[[4, 3, 1]]

In [None]:
np.exp(s)

Las series actúan como un diccionario de tamaño fijo en el que se pueden gestionar los valores a través de los índices.

In [None]:
s = Series([1,2,3,4,5], index=['a', 'b', 'c', 'd', 'e'])

In [None]:
s['a']

In [None]:
s['e'] = 12.

In [None]:
s

In [None]:
'e' in s

In [None]:
'f' in s

Sobre las series se pueden realizar operaciones vectoriales. 

In [None]:
s = Series([1,2,3,4,5], index=['a', 'b', 'c', 'd', 'e'])

In [None]:
s + s

In [None]:
s * 2

La principal diferencia entre series y ndarray es que las operaciones entre series alinean automáticamente los datos basados en las etiquetas, de forma que pueden realizarse cálculos sin tener en cuenta si las series sobre las que se operan tienen las mismas etiquetas.

In [None]:
s = Series([1,2,3,4,5], index=['a', 'b', 'c', 'd', 'e'])

In [None]:
s[1:] + s[:-1]

Observar que el resultado de una operación entre series no alineadas será la unión de los índices. Si una etiqueta no se encuentra en una de las series, entonces se le asocia el valor nulo.

Los datos y el índice de una serie tienen un atributo name que puede asociarle un nombre.

In [None]:
s = Series([1,2,3,4,5], index=['a', 'b', 'c', 'd', 'e'])

In [None]:
s.name="datos"

In [None]:
s.index.name="indice"

In [None]:
s

### 3. Dataframe

Es una estructura que contiene una colección ordenada de columnas cada una de las cuales puede tener valores de diferentes tipos. 

Un dataframe está formado por datos ,y opcionalmente un índice(etiquetas de las filas) y un conjunto de columnas(etiquetas de las columnas). En caso de no existir un índice, entonces se genera a partir de los datos.

Los datos de un dataframe pueden proceder de:

__Diccionario de ndarrays.__ 

Los arrays deben ser de la misma longitud. En caso de existir un índice, éste debe ser de la misma longitud que los arrays, y en caso de no existir entonces se genera como índice la secuencia de números 0…longitud(array)-1


In [None]:
d = {'one' : [1., 2., 3., 4.], 'two' : [4., 3., 2., 1.]}

In [None]:
DataFrame(d)

In [None]:
DataFrame(d, index=['a', 'b', 'c', 'd'])

__Lista de diccionarios__

In [None]:
data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

In [None]:
DataFrame(data2)

In [None]:
DataFrame(data2, index=['first', 'second'])

In [None]:
DataFrame(data2, columns=['a', 'b'])

__Diccionario de tuplas__

In [None]:
DataFrame({('a', 'b'): {('A', 'B'): 1, ('A', 'C'): 2},
           ('a', 'a'): {('A', 'C'): 3, ('A', 'B'): 4},
           ('a', 'c'): {('A', 'B'): 5, ('A', 'C'): 6},
           ('b', 'a'): {('A', 'C'): 7, ('A', 'B'): 8},
           ('b', 'b'): {('A', 'D'): 9, ('A', 'B'): 10}})

__Diccionario de series__. 

El índice que resulta es la union de los índices de las series. En caso de existir diccionarios anidados,entonces primero se convierten en diccionarios. Además si no se pasan columnas, se toman como tales la lista ordenada de las claves de los diccionarios.

In [16]:
 d = {'one' : Series([1., 2., 3.], index=['a', 'b', 'c']), 'two' : Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

In [17]:
df = DataFrame(d)

In [None]:
df

In [None]:
DataFrame(d, index=['d', 'b', 'a'])

In [None]:
DataFrame(d, index=['d', 'b', 'a'], columns=['two', 'three'])

Las etiquetas de las columnas y de las filas pueden ser accedidas a través de los atributos indice y columnas. 

Observar que cuando un conjunto particular de columnas se pasa como argumento con el diccionario, entonces las columans sobreescriben a las claves del diccionario.

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.columns = ['one', 'two']
df

__Array estructurado__

In [None]:
data = np.zeros((2,),dtype=[('A', 'i4'),('B', 'f4'),('C', 'a10')])

In [None]:
data[:] = [(1,2.,'Hello'),(2,3.,"World")]

In [None]:
DataFrame(data)

In [None]:
DataFrame(data, index=['first', 'second'])

In [None]:
DataFrame(data, columns=['C', 'A', 'B'])

Existen otras formas alternativas de construir un dataframe:
* DataFrame.from_dict
* DataFrame.from_records
* DataFrame.from_items

### 4. Operaciones sobre Dataframe

__Manipulación de un dataframe__

Un dataframe es como un diccionario de series indexado, por lo que se pueden usar las mismas operaciones usadas con los diccionarios.

In [20]:
df['one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [None]:
df['three'] = df['one'] * df['two']
df

In [22]:
df['flag'] = df['one'] > 2

In [None]:
df

Se pueden borrar columnas

In [None]:
del df['two']

In [None]:
three = df.pop('three')

In [None]:
df

Cuando se inserta un valor escalar, entonces se propaga  a toda la columna.

In [None]:
df['foo'] = 'bar'

In [None]:
df

Cuando se inserta una serie que no tiene el mismo índice, entonces se crea el índice para el dataframe.

In [None]:
df['one_trunc'] = df['one'][:2]

In [None]:
df

Las columnas por defecto se insertan al final, sin embargo se puede elegir el lugar de inserción usando la función insert

In [None]:
df.insert(1, 'bar', df['one'])

In [None]:
df

__Indexación/Selección__

Se puede seleccionar por columnas

In [None]:
df['one']

Se puede seleccionar por etiqueta

In [None]:
df.loc['b']

Selección de fila por entero.

In [None]:
df.iloc[2]

Selección por rangos

In [None]:
df[5:10]

__Alineamiento y aritmética__

Cuando se alinea un dataframe se realiza sobre las columnas y el índice, de manera que se hace la unión de las etiquetas de las columnas y de las filas.

In [None]:
randn = npy.random.randn

In [None]:
df = DataFrame(randn(10, 4), columns=['A', 'B', 'C', 'D'])

In [None]:
df2 = DataFrame(randn(7, 3), columns=['A', 'B', 'C'])

In [None]:
df + df2

Cuando se operan con dataframe y series, se alinea el índice de las series sobre las columnas del dataframe.

In [None]:
df - df.iloc[0]

Se pueden hacer operaciones con escalares.

In [None]:
df * 5 + 2

Se pueden hacer operaciones lógicas.

In [None]:
df1 = DataFrame({'a' : [1, 0, 1], 'b' : [0, 1, 1] }, dtype=bool)

In [None]:
df2 = DataFrame({'a' : [0, 1, 1], 'b' : [1, 1, 0] }, dtype=bool)

In [None]:
df1 & df2

__Transposición.__

Para transponer se utilizar el atributo T.

In [None]:
df[:5].T

__Visualización__

Hay varias formas de visualizar la información de un dataframe:

* Todos los datos a partir del nombre del dataframe.

In [None]:
df

* Un resumen de la información contenido, usando el método info()

In [None]:
df.info()

* Como una cadena usando el método to_string()

In [None]:
print(df.to_string())

Se puede configurar el número de columnas con display.width()

### 5. Interoperabilidad con Numpy

Siempre que los datos incluidos en un dataframe entonces pueden ser usados con funciones de Numpy.

In [None]:
npy.exp(df)

In [None]:
 1 / df

Con el método dot() se pueden realizar multiplicaciones.

In [None]:
df.T.dot(df)

Por ultimo indicar que las columnas de un dataframe pueden ser accedidas como si fueran atributos al estilo de Python.

In [None]:
df.A

### 6. Dataframe Read

**read_csv**

Para trabajar con archivos del tipo CSV, aplicaremos la funcion __read_csv__ y a continuación la ubicación del archivo.




In [None]:
df_housing = pd.read_csv('sample_data/california_housing_test.csv')
df_housing.head(18)

**read_json**

Para trabajar con archivos del tipo JSON, aplicaremos la funcion __read_json__ y a continuación la ubicación del archivo.

Para esto ubicaremos una url donde se encuentra la data del avance del __covid19__, que se encuentra en json actualizada al cierre del dia.


In [None]:
df_covid19 = pd.read_json('https://pomber.github.io/covid19/timeseries.json')
df_covid19.head()

**Data tipo JSON**

__json_normalize__, es una funcion de panda que permite convertir una data del tipo JSON en una simple tabla, para esto escogeremos sola la data de una columna.

In [None]:
# json_normalize  infiere de una colleccion json la convierte en un dataframe
df_peru = pd.json_normalize(df_covid19['Peru']) 
df_peru.head()

**Orden**

Para darle orden al dataframe, para esto utilizaremos la función __sort_values__

In [None]:
df_peru.sort_values(['date'] , ascending = [False]).head()

sin embargo veremos que, el tipo dato __date__ no lo esta ordenando correctamente,  veamos con __dtype__ que tipo de datos tenemos

In [None]:
df_peru.dtypes

La columna __date__  es del tipo object para cambiarla a un tipo datetime aplicamos un casteo para el tipo de dato, infiriendo el tipo de formato


In [None]:
df_peru['date'] =  pd.to_datetime(df_peru['date'] , infer_datetime_format=True)

# ordenamos nuevamente
df_peru.sort_values(['date'] , ascending = [False]).head()

In [None]:
df_peru['country']='Peru'
df_peru.head()

In [None]:
df_peru.count()

In [None]:
df_peru.shape

**Latam**

Escogeremos algunos paises de latino america, y los agregaremos en un nuevo Dataframe, utilizando la función **append**


Para crear un dataframe vacio lo podemos hacer de las siguientes formas
```
# Creando un Dataframe desde Cero
df_latam = pd.DataFrame({object:None, int:None, int:None, object:None}, columns = ['date','confirmed','deaths','recovered', 'country'])

# Copiando un dataframe anterior seleccionando ninguna columna
df_latam = df_peru.copy(deep=False)[0:0]

```



In [None]:
import datetime as dt

country_latam = ['Argentina','Bolivia', 'Brazil', 'Chile', 'Colombia', 'Costa Rica', 'Ecuador',  'Guatemala', 'Mexico', 'Panama', 'Peru', 'Venezuela']

df_latam = pd.DataFrame({dt.datetime:None, int:None, int:None, object:None}, 
                        columns = ['date','confirmed','deaths','recovered', 'country'])

for country in country_latam[0:]:
  df_country = pd.json_normalize(df_covid19[str(country)])
  df_country['country'] = country
  df_latam = df_latam.append(df_country, ignore_index = False)

df_latam['date'] =  pd.to_datetime(df_latam['date'] , infer_datetime_format=True)

df_latam.head()

In [None]:
max(df_latam['date'])

In [None]:
df_latam[ df_latam['date']==  max(df_latam['date']) ].sort_values(['confirmed', 'deaths'] , ascending = [False, False])

In [None]:
df_latam.groupby(['country']).agg({'confirmed':'max', 'deaths':'max', 'recovered':'max'}).plot( 
    kind='bar',  
    title='Country', 
    figsize=(10,5))

In [None]:
import matplotlib.pyplot as plt
from matplotlib.pyplot import figure

figure(num=None, figsize=(10, 10), dpi=80, facecolor='w', edgecolor='k')
plt.xticks(rotation=45)

for country in country_latam:
  plt.plot(df_latam[df_latam['country']==  country ]['date'], 
           df_latam[df_latam['country']==  country ]['recovered'], 
           label=country) 
  

plt.legend()
plt.show()


### Ejercicios


*1. Los 10 Paises (sobre la base total de paises) con mas casos confirmados con Coronavirus, y 10 con menos casos confirmados (2 datasets). 

In [13]:
import datetime as dt

country_world = ['Afghanistan',	'Albania',	'Algeria',	'Andorra',	'Angola',	'Antigua and Barbuda',	'Argentina',	'Armenia',	'Australia',	'Austria',	'Azerbaijan',	'Bahamas',	'Bahrain',	'Bangladesh',	'Barbados',	'Belarus',	'Belgium',	'Belize',	'Benin',	'Bhutan',	'Bolivia',	'Bosnia and Herzegovina',	'Botswana',	'Brazil',	'Brunei',	'Bulgaria',	'Burkina Faso',	'Burma',	'Burundi',	'Cabo Verde',	'Cambodia',	'Cameroon',	'Canada',	'Central African Republic',	'Chad',	'Chile',	'China',	'Colombia',	'Comoros',	'Congo (Brazzaville)',	'Congo (Kinshasa)',	'Senegal',	'Serbia',	'Seychelles',	'Sierra Leone',	'Singapore',	'Slovakia',	'Slovenia',	'Somalia',	'South Africa',	'South Sudan',	'Spain',	'Sri Lanka',	'Sudan',	'Suriname',	'Sweden',	'Switzerland',	'Syria',	'Taiwan*',	'Tajikistan',	'Tanzania',	'Thailand',	'Timor-Leste',	'Togo',	'Trinidad and Tobago',	'Tunisia',	'Turkey',	'US',	'Uganda',	'Ukraine',	'United Arab Emirates',	'United Kingdom',	'Uruguay',	'Uzbekistan',	'Venezuela',	'Vietnam',	'West Bank and Gaza',	'Western Sahara',	'Yemen',	'Zambia',	'Zimbabwe']

df_world = pd.DataFrame({dt.datetime:None, int:None, int:None, object:None}, 
                        columns = ['date','confirmed','deaths','recovered', 'country'])

for country in country_world[0:]:
  df_country = pd.json_normalize(df_covid19[str(country)])
  df_country['country'] = country
  df_world = df_world.append(df_country, ignore_index = True)

df_world['date'] =  pd.to_datetime(df_world['date'] , infer_datetime_format=True)

df_mayor=df_world[ df_world['date']==  max(df_world['date']) ].sort_values(['confirmed'] , ascending = [False]).groupby('date').head(10)

df_mayor[['date','confirmed','country']]


Unnamed: 0,date,confirmed,country
15367,2020-09-03,6150016,US
5423,2020-09-03,4041638,Brazil
8587,2020-09-03,641574,Colombia
11299,2020-09-03,633015,South Africa
11751,2020-09-03,488513,Spain
1581,2020-09-03,451198,Argentina
8135,2020-09-03,416501,Chile
16271,2020-09-03,342708,United Kingdom
3163,2020-09-03,319686,Bangladesh
15141,2020-09-03,274943,Turkey


In [14]:
df_menor=df_world[ df_world['date']==  max(df_world['date']) ].sort_values(['confirmed'] , ascending = [True]).groupby('date').head(10)

df_menor[['date','confirmed','country']]

Unnamed: 0,date,confirmed,country
17627,2020-09-03,10,Western Sahara
14237,2020-09-03,27,Timor-Leste
1355,2020-09-03,95,Antigua and Barbuda
9943,2020-09-03,136,Seychelles
5649,2020-09-03,145,Brunei
3389,2020-09-03,177,Barbados
4519,2020-09-03,227,Bhutan
7005,2020-09-03,274,Cambodia
6553,2020-09-03,448,Burundi
8813,2020-09-03,448,Comoros


*2. Para el caso de Peru, listar la variación versus el dia anterior, en los ultimos 40 dias.

In [19]:
df_peru = pd.json_normalize(df_covid19['Peru']) 

df_peru['date'] =  pd.to_datetime(df_peru['date'] , infer_datetime_format=True)

df_final=df_peru.sort_values(['date'] , ascending = [False]).head(40)
df_dif = df_final['confirmed'] - df_final['confirmed'].shift(-1) 
df_final.insert(4,"variacion",df_dif,True)

df_final[['date','confirmed','variacion']]

Unnamed: 0,date,confirmed,variacion
225,2020-09-03,657129,0.0
224,2020-09-02,657129,5092.0
223,2020-09-01,652037,4871.0
222,2020-08-31,647166,7731.0
221,2020-08-30,639435,9474.0
220,2020-08-29,629961,7964.0
219,2020-08-28,621997,8619.0
218,2020-08-27,613378,5996.0
217,2020-08-26,607382,6944.0
216,2020-08-25,600438,6112.0


*3. Para el caso de Brasil, en que dia se registro el mayor numero de muertes


In [20]:
df_brazil = pd.json_normalize(df_covid19['Brazil']) 

df_brazil['date'] =  pd.to_datetime(df_brazil['date'] , infer_datetime_format=True)
df_final=df_brazil.sort_values(['deaths'] , ascending = [False]).head(1)

df_final[['date','deaths']]

Unnamed: 0,date,deaths
225,2020-09-03,124614


*4. Para el caso de Mexico, cual es el promedio de recuperados en la ultima semana

In [23]:
df_mexico = pd.json_normalize(df_covid19['Mexico']) 

df_mexico['date'] =  pd.to_datetime(df_mexico['date'] , infer_datetime_format=True)
df_final=df_mexico.sort_values(['confirmed'] , ascending = [False]).head(7)

df_prom = df_final["recovered"].mean()

df_final.insert(4,"promedio",df_prom,True)

df_final[['date','recovered','promedio']]

Unnamed: 0,date,recovered,promedio
225,2020-09-03,510626,495269.714286
224,2020-09-02,504541,495269.714286
223,2020-09-01,501722,495269.714286
222,2020-08-31,496222,495269.714286
221,2020-08-30,489724,495269.714286
220,2020-08-29,484283,495269.714286
219,2020-08-28,479770,495269.714286


*5. Cuales son 5 actores del genero __comedia__, con mejor __promedio__ de __rating__ en las peliculas. considere la siguiente set de datos:  https://www.imdb.com/interfaces/  
El tipo de archivo gz es comprimido, el tipo de archivo  tsv es texto plano separado por tabuladores.


In [None]:
df_housing = pd.read_csv('https://datasets.imdbws.com/title.ratings.tsv.gz',sep='|')
df_housing.head(18)

# Referencias

http://pandas.pydata.org/pandas-docs/stable/index.html 