## <center> Pandas </center>

- [Pandas en 10 minutos](https://pandas.pydata.org/pandas-docs/stable/10min.html)

In [1]:
import pandas as pd

Obtenemos datos de GoogleTrends mediante la biblioteca [pytrends](https://github.com/GeneralMills/pytrends). Extraído del [ejemplo](https://github.com/GeneralMills/pytrends/blob/master/examples/example.py) publicado en Github:

In [2]:
from pytrends.request import TrendReq  # pip3 install pytrends

pytrend = TrendReq()

# Buscamos el interés a lo largo del tiempo de la siguiente búsqueda:
pytrend.build_payload(kw_list=["aprender guitarra"])

# Devuelve un objeto DataFrame de pandas
df = pytrend.interest_over_time() 

In [3]:
# Obtener las 5 primeras columnas del DataFrame:
df.head()

Unnamed: 0_level_0,aprender guitarra,isPartial
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2012-11-11,65,False
2012-11-18,60,False
2012-11-25,60,False
2012-12-02,61,False
2012-12-09,63,False


In [4]:
# Obtener las 5 últimas columnas del DataFrame
df.tail()

Unnamed: 0_level_0,aprender guitarra,isPartial
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2017-10-08,24,False
2017-10-15,23,False
2017-10-22,24,False
2017-10-29,24,False
2017-11-05,25,True


In [5]:
# Podemos especificar el número de columnas que devuelve:
df.head(3), df.tail(2)

(            aprender guitarra isPartial
 date                                   
 2012-11-11                 65     False
 2012-11-18                 60     False
 2012-11-25                 60     False,
             aprender guitarra isPartial
 date                                   
 2017-10-29                 24     False
 2017-11-05                 25      True)

In [6]:
# Obtener los métodos posibles que acepta el DataFrame
dir(df)  # Para obtener ayuda de un método: help(df.<método>), por ejemplo help(df.shift)

['T',
 '_AXIS_ALIASES',
 '_AXIS_IALIASES',
 '_AXIS_LEN',
 '_AXIS_NAMES',
 '_AXIS_NUMBERS',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_AXIS_SLICEMAP',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_wrap__',
 '__bool__',
 '__bytes__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__div__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdiv__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rfloordiv__',


In [7]:
# Obtener el índice del DataFrame 
df.index   # En este caso son las fechas

DatetimeIndex(['2012-11-11', '2012-11-18', '2012-11-25', '2012-12-02',
               '2012-12-09', '2012-12-16', '2012-12-23', '2012-12-30',
               '2013-01-06', '2013-01-13',
               ...
               '2017-09-03', '2017-09-10', '2017-09-17', '2017-09-24',
               '2017-10-01', '2017-10-08', '2017-10-15', '2017-10-22',
               '2017-10-29', '2017-11-05'],
              dtype='datetime64[ns]', name='date', length=261, freq=None)

In [8]:
# Obtener el tamaño del DataFrame
print(df.size)  # filas * columnas
print(len(df))  # filas

522
261


### Modificación 

In [9]:
# Editar el nombre de las columnas
df.columns = ["aprender_guitarra", "esParcial"]
df.columns

# Editar los índices
# df.index = [...]

Index(['aprender_guitarra', 'esParcial'], dtype='object')

In [10]:
# Insertar una columna en una posición
columna = df["esParcial"]
df.insert(2, "Parcial", columna)

# Borrar una columna
del df["esParcial"]  # También ---->    df.pop("esParcial")
df.head()

Unnamed: 0_level_0,aprender_guitarra,Parcial
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2012-11-11,65,False
2012-11-18,60,False
2012-11-25,60,False
2012-12-02,61,False
2012-12-09,63,False


### Selección

In [31]:
# Si seleccionamos una columna tenemos una Serie de pandas
print(type(df["aprender_guitarra"]))  # <class 'pandas.core.series.Series'>

# Selección por índice, devuelve todas sus columnas:
df.xs("2012-11-11")

# Devuelve todas las columnas entre dos índices
df.loc["2012-11-11":"2012-11-25"]

# Seleccionar filas por índice
df.iloc[0:5] 
df[0:2]


<class 'pandas.core.series.Series'>


Unnamed: 0_level_0,aprender_guitarra,Parcial
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2012-11-11,65,False
2012-11-18,60,False


________________________________________________________________________________

### Exportar información
Hay muchas más formas de convertir un fichero. [Desde aquí](https://pandas.pydata.org/pandas-docs/stable/api.html#id12) puedes consultarlas todas.

In [11]:
# Para convertir un DataFrame a csv
data_csv = df.to_csv(header=["aprender_guitarra", "esParcialial"]) # Sin guardar en archivo

# Para limitar el número de columnas 
df.to_csv("fichero.csv", columns=["aprender guitarra"]) # Guardándolo en archivo

KeyError: "None of [['aprender guitarra']] are in the [columns]"

En la [referencia de la función `to_csv`](http://pandas.pydata.org/pandas-docs/version/0.20.3/generated/pandas.DataFrame.to_csv.html) podemos consultar todos los parámetros posibles.

In [None]:
# Para convertir un DataFrame a json
data_json = df.to_json()  # Por defecto, las fechas se vuelven unix timestamps

df.to_json("fichero2.json") # Guardándolo en archivo

# Para exportarlo a HTML
df.to_html("fichero3.html")

En la [referencia de la función to_json](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_json.html) podemos consultar todos los parámetros posibles.

### Importar información



In [None]:
# Leer un archivo csv
data = pd.read_csv("fichero.csv")

En la [referencia de la función `read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv) podemos consultar todos los parámetros posibles.

In [None]:
# Leer un archivo json
df_json = pd.read_json("fichero2.json")


En la [referencia de la función `read_json`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_json.html) podemos consultar todos los parámetros posibles.