# 3 - Pandas, Objetos Básicos


* ***Pandas*** es una ***librería de python*** destinada al **análisis de datos**, que proporciona unas ***estructuras de datos flexibles*** y que permiten trabajar con ellos de forma muy eficiente. 


* Pandas ofrece las siguientes estructuras de datos:

    - **Series:** Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similar a los diccionarios. Pueden generarse a partir de diccionarios o de listas.
    
    - **DataFrame:** Son estructuras de datos similares a las tablas de bases de datos relacionales como SQL.
    
    - **Panel, Panel4D y PanelND:** Estas estructuras de datos permiten trabajar con más de dos dimensiones.


* En este Notebook vamos a ver de manera muy sencilla:

    1. ***Importar de pandas***
    
    2. ***Series***:
        + Series con índice por defecto
        + Series con índice indicado de manera explicita
        + Pasar de un Diccionario a una Serie
        + Series Temporales
        
    3. ***DataFrame***:
        + Creacción de un DataFrame
        + Lectura de un fichero de texto a DataFrame
        + Lectura de un fichero CSV a DataFrame
        + Lectura de un fichero de texto desde una URL a DataFrame
        + Escritura de un DataFrame en csv
        + Escritura de un DataFrame en Excel
        + Escritura de un DataFrame en formato JSON



<hr>



# 1. Importar Pandas


* Por convenio (de la comunidad de desarrollares) se pone "**pd**" como alias de la librería Pandas, importando esta librería de la siguiente manera:



In [1]:
import pandas as pd

<hr>


# 2. Series


* Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similar a los diccionarios. 


* Pueden generarse a partir de diccionarios (si los índices son etiquetados) o de listas (índices por defecto).


* Enlace a la Documentación: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html


* Las series pueden recibir los siguientes parámetros:

    + **data**: Los datos de la serie.
    
    + **index**: Índice relacionado con cada datos de la serie.
    
    + **dtype**: Tipo de datos de los valores de la serie.
    

```python
serie = pd.Series(data, index=index, dtype=dtype)
```
    

* A continuación mostramos algunos ejemplos para ver como se pueden crear las series y las estructuras que tienen.


### - Series con índice por defecto


* Vamos a crear una serie con los nombres de los futbolistas campeones del mundo de la selección española que fueron titulares en la final del campeonato del mundo de fútbol del 2010.


* En este caso solo pasamos los valores de la serie, por lo que nos pondrá los índices por defecto (empezando a contar desde cero).

In [2]:
futbolistas = pd.Series(['Casillas', 'Ramos', 'Pique', 'Puyol', 'Capdevila', 'Xabi Alonso', 'Busquets', 
                         'Xavi Hernandez', 'Pedrito', 'Iniesta', 'Villa'])
futbolistas

0           Casillas
1              Ramos
2              Pique
3              Puyol
4          Capdevila
5        Xabi Alonso
6           Busquets
7     Xavi Hernandez
8            Pedrito
9            Iniesta
10             Villa
dtype: object

### - Series con índice indicado de manera explicita


* Creamos la serie con los nombres de los futbolistas como valores y como índice su número de dorsal.


* En la serie no puede haber dos valores con el mismo índice.

In [3]:
futbolistas = pd.Series(['Casillas', 'Ramos', 'Pique', 'Puyol', 'Capdevila', 'Xabi Alonso', 'Busquets', 
                         'Xavi Hernandez', 'Pedrito', 'Iniesta', 'Villa'], 
                        index=[1, 15, 3, 5, 11, 14, 16, 8, 18, 6, 7])

futbolistas

1           Casillas
15             Ramos
3              Pique
5              Puyol
11         Capdevila
14       Xabi Alonso
16          Busquets
8     Xavi Hernandez
18           Pedrito
6            Iniesta
7              Villa
dtype: object

### - Pasar de un Diccionario a una Serie


* Dado que los diccionarios en python son unas estructuras similares a las series (pares clave, valor), podemos construir una serie a partir de un diccionario.

In [4]:
dict_futbolistas = {1: 'Casillas', 15: 'Ramos', 3: 'Pique', 5: 'Puyol', 11: 'Capdevila', 14: 'Xabi Alonso',
               16: 'Busquets', 8: 'Xavi Hernandez', 18: 'Pedrito', 6: 'Iniesta', 7: 'Villa'}

futbolistas_to_series = pd.Series(dict_futbolistas)

futbolistas_to_series

1           Casillas
15             Ramos
3              Pique
5              Puyol
11         Capdevila
14       Xabi Alonso
16          Busquets
8     Xavi Hernandez
18           Pedrito
6            Iniesta
7              Villa
dtype: object

### - Series Temporales


* Un caso de uso muy habitual a la hora de trabajar con series, son las series temporales que tienen la peculiaridad de tener:

    + ***Índice***: Un instante temporal (timestamp)
    + ***Valor***
    

* Un ejemplo de serie temporal sería el siguiente:

In [5]:
time_serie = pd.Series([1, 2, 3, 4, 5], 
                       index=pd.DatetimeIndex(['2000-01-01', '2000-01-02', '2000-01-03', '2000-01-04', '2000-01-05']))
time_serie

2000-01-01    1
2000-01-02    2
2000-01-03    3
2000-01-04    4
2000-01-05    5
dtype: int64

<hr>


# 3. DataFrame

* Un ***DataFrame*** es una ***estructura de datos similar a una tabla de una base de datos relacionar, una tabla de excel, etc.*** y como tal se pueden hacer muchas ***operaciones como las que se harían con consultas a tablas de bases de datos o en excel***.


* Para construir un DataFrame se puede hacer de diferentes formas, como por ejemplo a partir de una lista, de un diccionario, de una Serie, de otro DataFrame, leyendo una tabla excel, de ficheros csv, json, xml, etc. 


* Enlace a la documentación: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html


* Para construir un DataFrame puede recibir los siguientes parámetros:
    + ***data***: Datos del DataFrame ("contenido de la tabla")
    + ***index***: Índice de cada una de las filas del DataFrame. Si no se indica nada se pondrán unos índices por defecto.
    + ***columns***: Nombre de las columnas del DataFrame ("nombre de las columnas de la tabla"). Si no se indica nada se pondrán unos nombres a las columnas por defecto.
    
```python
df = pd.DataFrame(data, index=index, columns=dtype)
```


* A continuación vamos a ver algunos ejemplos de como crear DataFrames de diferentes maneras. No se van a mostrar todas las formas posibles de crear un DataFrame a partir de una fuente de datos (ya que esto se puede hacer de muchísimas maneras) pero si las más comunes:


### - Creacción de un DataFrame


* A continuación se muestra como crear de manera sencilla un DataFrame en el que vamos a tener los datos de los futbolístas de la selección Española que gano el mundial de fútbol del 2010:
    + Nombre
    + Demarcación
    + Club al que pertenences
    + ***Índice***: Dorsal del jugador
    + ***Nombres de las columnas*** que indica el significado del dato.

In [6]:
df_futbolistas = pd.DataFrame(
    {
        'name': ['Casillas', 'Ramos', 'Pique', 'Puyol', 'Capdevila', 'Xabi Alonso', 'Busquets', 'Xavi Hernandez',
                 'Pedrito', 'Iniesta', 'Villa'],
        'demarcation': ['Goalkeeper', 'Right back', 'Centre-back', 'Centre-back', 'Left back', 'Defensive midfield',
                        'Defensive midfield', 'Midfielder', 'Left winger', 'Right winger', 'Centre forward'],
        'team': ['Real Madrid', 'Real Madrid', 'FC Barcelona', 'FC Barcelona', 'Villareal', 'Real Madrid',
                 'FC Barcelona', 'FC Barcelona', 'FC Barcelona', 'FC Barcelona', 'FC Barcelona']
    }, 
    index=[1, 15, 3, 5, 11, 14, 16, 8, 18, 6, 7], 
    columns=['name', 'demarcation', 'team'] 
)
df_futbolistas

Unnamed: 0,name,demarcation,team
1,Casillas,Goalkeeper,Real Madrid
15,Ramos,Right back,Real Madrid
3,Pique,Centre-back,FC Barcelona
5,Puyol,Centre-back,FC Barcelona
11,Capdevila,Left back,Villareal
14,Xabi Alonso,Defensive midfield,Real Madrid
16,Busquets,Defensive midfield,FC Barcelona
8,Xavi Hernandez,Midfielder,FC Barcelona
18,Pedrito,Left winger,FC Barcelona
6,Iniesta,Right winger,FC Barcelona


### - Lectura de un fichero de texto a DataFrame


* Una de las funciones más habituales es la de ***pasar el contenido de un fichero a un DataFrame***.


* Pandas dispone de la función "*read_table()*" para leer cualquier fichero de texto plano. Esta función tiene muchísimos parámetros ya que la estructura del fichero de texto puede tener infinidad de formatos y estructuras. Por simplicidad se pasan a mostrar 3 parámetros (quizás los más utilizados):

    + ***filepath_or_buffer***: ruta del fichero a leer
    + ***sep***: Caracter separado de los datos por columnas
    + ***header***: para indicar el nombre de las columnas en modo lista. Si la primera línea del fichero tiene el nombre de las columnas, este parámetro debe de tener el valor '0'.
    
```python
pd.read_table('file_name', sep=',', header=0)
```


* Enlace a la documentación: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_table.html


* Veamos a continuación como leer un fichero de texto plano, que tiene como separador el caracter de la coma y que la primera fila del fichero tiene el nombre de las columnas del DataFrame:

In [7]:
df_partidos = pd.read_table('./data/Partidos_Futbol_Temporada_2017_18.csv', 
                            sep=',', 
                            header=0)

df_partidos.head(10) # Mostramos solo los 10 primeros partidos del DataFrame

Unnamed: 0,idPartido,temporada,division,jornada,EquipoLocal,EquipoVisitante,golesLocal,golesVisitante,fecha,timestamp
0,36306,2017-18,1,1,Valencia,Las Palmas,1,0,18/08/2017,1503007200
1,36307,2017-18,1,1,Leganes,Alaves,1,0,18/08/2017,1503007200
2,36308,2017-18,1,1,Celta de Vigo,Real Sociedad,2,3,19/08/2017,1503093600
3,36309,2017-18,1,1,Girona,Atletico de Madrid,2,2,19/08/2017,1503093600
4,36310,2017-18,1,1,Sevilla,Espanol,1,1,19/08/2017,1503093600
5,36311,2017-18,1,1,Levante,Villarreal,1,0,20/08/2017,1503180000
6,36312,2017-18,1,1,Atletico de Bilbao,Getafe,0,0,20/08/2017,1503180000
7,36313,2017-18,1,1,Malaga,Eibar,0,1,20/08/2017,1503180000
8,36314,2017-18,1,1,Barcelona,Betis,2,0,20/08/2017,1503180000
9,36315,2017-18,1,1,Deportivo,Real Madrid,0,3,20/08/2017,1503180000


### - Lectura de un fichero CSV a DataFrame


* Dado que existen muchos estandares de ficheros (CSV, JSON, parquet, pickle, etc.), ***Pandas permite leer estos ficheros y pasarlos directamente a un DataFrame con funciones propias***.


* En realidad estas funciones que leen ficheros de diferentes formatos es una especialización de la función '*read_table()*', ajustando sus parámetros a la especificación de los estandares de los formatos de los ficheros.


* En el siguiente enlace se puede ver los tipos de ficheros que Pandas es capaz de parsear y pasarlo a un DataFrame: https://pandas.pydata.org/pandas-docs/stable/reference/io.html


* En particular ***uno de los formatos más habituales para trabajar es el formato CSV***, que consiste en un texto plano cuyas columnas están separadas por comas y los datos de cada posición de la tabla pueden venir o no entre comillas.


* Pandas dispone de la función "***read_csv()***" para leer directamente los ficheros de texto con ese formato.


* Veamos a continuación un ejemplo, en el que solo es necesario indicarle si en el CSV la primera fila contiene el nombre de las columnas o no:

In [8]:
df_partidos = pd.read_csv('./data/Partidos_Futbol_Temporada_2017_18.csv', 
                          header=0)

df_partidos.tail(10) # Mostramos solo los 10 últimos partidos del DataFrame

Unnamed: 0,idPartido,temporada,division,jornada,EquipoLocal,EquipoVisitante,golesLocal,golesVisitante,fecha,timestamp
832,37138,2017-18,2,42,Granada,Cadiz,2,1,02/06/2018,1527890400
833,37139,2017-18,2,42,Cordoba,Sporting de Gijon,3,0,02/06/2018,1527890400
834,37140,2017-18,2,42,Tenerife,Albacete,1,1,02/06/2018,1527890400
835,37141,2017-18,2,42,Lugo,Almeria,1,1,02/06/2018,1527890400
836,37142,2017-18,2,42,Gimnastic de Tarragona,Rayo Vallecano,2,0,02/06/2018,1527890400
837,37143,2017-18,2,42,Valladolid,Osasuna,2,0,02/06/2018,1527890400
838,37144,2017-18,2,42,Oviedo,Huesca,2,1,02/06/2018,1527890400
839,37145,2017-18,2,42,Alcorcon,Reus,3,0,02/06/2018,1527890400
840,37146,2017-18,2,42,Numancia,Cultural Leonesa,2,1,02/06/2018,1527890400
841,37147,2017-18,2,42,Barcelona Atletic,Zaragoza,0,2,02/06/2018,1527890400


### - Lectura de un fichero de texto desde una URL a DataFrame


* Pandas permite también leer ficheros obtenidos haciendo una petición http.


* En el siguiente ejemplo mostramos como somos capaces de leer un csv desde una dirección web:


##### NOTA: El significado de cada una de las columnas lo podeis obtener a partir del siguiente enlace: http://www.football-data.co.uk/notes.txt

In [9]:
# Esta es una opción para que se visualicen todas las columnas del DataFrame
pd.options.display.max_columns = None 

df_partidos_ext = pd.read_csv('https://www.football-data.co.uk/mmz4281/1819/SP1.csv',
                              header=0)

df_partidos_ext.head(10)

Unnamed: 0,Div,Date,HomeTeam,AwayTeam,FTHG,FTAG,FTR,HTHG,HTAG,HTR,HS,AS,HST,AST,HF,AF,HC,AC,HY,AY,HR,AR,B365H,B365D,B365A,BWH,BWD,BWA,IWH,IWD,IWA,PSH,PSD,PSA,WHH,WHD,WHA,VCH,VCD,VCA,Bb1X2,BbMxH,BbAvH,BbMxD,BbAvD,BbMxA,BbAvA,BbOU,BbMx>2.5,BbAv>2.5,BbMx<2.5,BbAv<2.5,BbAH,BbAHh,BbMxAHH,BbAvAHH,BbMxAHA,BbAvAHA,PSCH,PSCD,PSCA
0,SP1,17/08/2018,Betis,Levante,0,3,A,0,1,A,22,6,8,4,10,10,5,3,0,2,0,0,1.66,4.0,5.0,1.7,3.7,5.25,1.75,3.6,4.9,1.69,4.19,5.11,1.67,3.9,4.75,1.67,4.2,5.2,40,1.75,1.68,4.25,4.0,5.25,4.95,38,1.82,1.76,2.15,2.06,20,-0.75,1.89,1.85,2.07,2.0,1.59,4.42,5.89
1,SP1,17/08/2018,Girona,Valladolid,0,0,D,0,0,D,13,2,1,1,21,20,3,2,1,1,0,0,1.75,3.6,5.0,1.75,3.5,5.25,1.8,3.6,4.5,1.8,3.7,4.99,1.75,3.6,4.6,1.8,3.7,4.8,40,1.85,1.78,3.83,3.6,5.27,4.79,38,2.21,2.13,1.78,1.71,20,-0.75,2.06,2.01,1.9,1.85,1.76,3.57,5.62
2,SP1,18/08/2018,Barcelona,Alaves,3,0,H,0,0,D,25,3,9,0,6,13,7,1,0,2,0,0,1.11,10.0,21.0,1.11,10.0,20.0,1.12,9.0,20.0,1.11,11.27,25.4,1.08,9.0,29.0,1.1,10.5,34.0,40,1.13,1.1,11.5,9.82,41.0,25.67,32,1.39,1.34,3.4,3.18,19,-2.5,1.95,1.91,2.0,1.95,1.1,11.85,32.17
3,SP1,18/08/2018,Celta,Espanol,1,1,D,0,1,A,12,14,2,5,13,14,8,7,3,2,0,0,1.85,3.5,4.5,1.91,3.4,4.25,1.9,3.5,4.1,1.93,3.64,4.27,1.91,3.5,4.0,1.93,3.5,4.4,38,1.97,1.9,3.73,3.53,4.5,4.2,36,2.13,2.06,1.84,1.76,18,-0.75,2.26,2.18,1.74,1.71,2.18,3.26,3.85
4,SP1,18/08/2018,Villarreal,Sociedad,1,2,A,1,1,D,16,8,7,4,16,10,4,6,2,3,0,0,2.04,3.4,3.8,2.05,3.3,3.9,2.0,3.4,3.8,2.06,3.51,3.91,2.05,3.3,3.6,2.05,3.5,3.9,40,2.11,2.03,3.62,3.43,3.93,3.76,37,2.05,1.99,1.88,1.81,18,-0.25,1.76,1.74,2.23,2.14,2.32,3.21,3.53
5,SP1,19/08/2018,Eibar,Huesca,1,2,A,0,2,A,18,8,6,6,12,13,7,0,1,1,0,0,1.66,3.75,5.5,1.7,3.7,5.25,1.7,3.75,5.0,1.72,3.9,5.26,1.73,3.6,4.75,1.7,3.8,5.0,40,1.76,1.7,3.93,3.77,5.5,5.08,37,1.95,1.88,1.98,1.91,19,-0.75,1.96,1.91,2.01,1.94,1.77,3.68,5.32
6,SP1,19/08/2018,Real Madrid,Getafe,2,0,H,1,0,H,10,4,3,1,11,27,3,0,1,7,0,0,1.2,7.0,13.0,1.18,7.25,16.0,1.2,6.5,15.0,1.2,7.36,17.47,1.22,6.0,13.0,1.2,7.0,13.0,39,1.24,1.21,7.36,6.66,17.47,14.13,33,1.5,1.45,2.75,2.66,19,-1.75,1.85,1.8,2.15,2.07,1.19,7.77,17.96
7,SP1,19/08/2018,Vallecano,Sevilla,1,4,A,0,3,A,13,17,2,8,6,15,2,6,1,0,0,0,3.25,3.6,2.14,3.5,3.5,2.1,3.5,3.4,2.1,3.46,3.74,2.13,3.3,3.7,2.05,3.4,3.6,2.1,40,3.53,3.38,3.75,3.56,2.2,2.11,37,1.83,1.76,2.13,2.04,19,0.25,2.08,2.03,1.86,1.83,4.57,4.07,1.78
8,SP1,20/08/2018,Ath Bilbao,Leganes,2,1,H,1,1,D,17,12,5,2,12,13,6,2,4,5,0,0,1.75,3.3,5.5,1.78,3.5,5.0,1.85,3.5,4.4,1.79,3.54,5.46,1.8,3.4,4.75,1.8,3.4,5.0,40,1.85,1.78,3.64,3.43,5.5,5.03,36,2.49,2.35,1.64,1.58,18,-0.75,2.11,2.04,1.86,1.82,1.69,3.77,5.87
9,SP1,20/08/2018,Valencia,Ath Madrid,1,1,D,0,1,A,13,9,4,3,10,15,4,10,2,3,0,0,3.0,3.2,2.5,2.85,3.25,2.55,2.85,3.2,2.55,3.12,3.18,2.57,3.0,3.2,2.4,3.0,3.2,2.45,39,3.12,2.99,3.29,3.14,2.61,2.51,36,2.45,2.33,1.65,1.59,17,0.25,1.82,1.75,2.23,2.12,3.55,3.28,2.28


### - Escritura de un DataFrame en csv


* Pandas dispone de una serie de funciones para exportar los DataFrames a ficheros de texto en diferentes formatos.


* Enlace para ver los formatos en los que se puede exportar un DataFrame: https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#serialization-io-conversion


* Ejemplo de como exportar un DataFrame en formato csv:

In [10]:
df = df_partidos.head(10) # A modo de ejemplo voy a exportar solo información de 10 partidos de fútbol

df.to_csv('./data/resultados/ejemplo_export_DataFrame_csv.csv')

### - Escritura de un DataFrame en Excel


* Ejemplo de como exportar un DataFrame en formato excel:

In [11]:
df.to_excel('./data/resultados/ejemplo_export_DataFrame_excel.xlsx')

### - Escritura de un DataFrame en formato JSON


* Ejemplo de como exportar un DataFrame en formato JSON:

In [12]:
df.to_json('./data/resultados/ejemplo_export_DataFrame_JSON.json')

<hr>

*Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.*

<img src="./imgs/CC_BY-NC-SA.png" alt="CC BY-NC">