# 4.1 Introducción a Pandas

Pandas es una muy popular librería de código abierto dentro de los desarrolladores de Python, y sobre todo dentro del ámbito de Data Science y Machine Learning, ya que ofrece unas estructuras muy poderosas y flexibles que facilitan la manipulación y tratamiento de datos.

Puedes encontrar la documentación de pandas en https://pandas.pydata.org/docs/index.html

# Estructuras de datos en Pandas

Las dos __estructuras de datos__ en pandas son:

-__Series__: array unidimensional que permite almacenar todo tipo de datos de numpy con un índice

-__Dataframe__: array bidimensional con columnas y un índice. Cada una de las columnas es una serie

<center>
<img src="./imgs/series+pandas.png"  alt="drawing" width="50%"/>
</center>

Para poder utilizar la librería, primero hay que instalarla:

- conda install -c anaconda pandas  as pd        ##### Si usas anaconda

- pip install pandas as pd

In [3]:
import numpy as np
import pandas as pd

__OJO: pandas utiliza por debajo numpy__

## Series

Una serie es:

- un array de datos unidimensional

- Un array de etiquetas que se denomina __índice__. No es obligatorio añadir el índice

Podemos crear una serie con índice o sin índice. Los parámetros que se pueden pasar al constructor pd.Series() son:

- __data__: contiene los datos de la series. Puede ser un escalar, una secuencia de Python o un ndarray unidimensional de numpy
- __index__: OPCIONAL. Son las etiquetas que se asignan a cada dato
- __dtype__: OPCIONAL: indica el tipo de los datos y puede ser cualquier tipo de dato de Numpy.


In [9]:
# crear una serie sin índice
serie1 = pd.Series([0, 1, 2, 3, 4, 5, 6])

#crear una serie con índice
serie2 = pd.Series([0, 1, 2, 3, 4, 5, 6], index = ['a', 'b', 'c', 'd', 'f', 'g', 'h'])

In [16]:
serie1

0    0
1    1
2    2
3    3
4    4
5    5
6    6
dtype: int64

In [17]:
serie2

a    0
b    1
c    2
d    3
f    4
g    5
h    6
dtype: int64

Si no se indica, el índice son enteros empiezando en 0

Con values obtenemos los valores y con index los índices

In [12]:
serie2.values

array([0, 1, 2, 3, 4, 5, 6])

In [15]:
serie2.index

Index(['a', 'b', 'c', 'd', 'f', 'g', 'h'], dtype='object')

Crear una serie usando un diccionario

In [10]:
dict = {
    'peras': 2500,
    'manzanas': 3400,
    'naranjas': 8700
}
serie3 = pd.Series(dict)
serie3

peras       2500
manzanas    3400
naranjas    8700
dtype: int64

Seleccionamos elementos de una lista empleando el índice

In [18]:
# un elemento
print(serie2['b'])
serie1[1]

1


1

In [21]:
# varios elementos
print(serie2[['b', 'a', 'f']])
serie1[1:3]

b    1
a    0
f    4
dtype: int64


1    1
2    2
dtype: int64

Seleccionamos elementos empleando un índice booleano

In [22]:
serie1[serie1>3]

4    4
5    5
6    6
dtype: int64

Operaciones con las series

In [28]:
2 * serie1

0     0
1     2
2     4
3     6
4     8
5    10
6    12
dtype: int64

In [27]:
print(serie1.mean())
np.mean(serie1)

3.0


3.0

In [7]:
'peras' in serie3

True

Podemos cambiar el índice a una serie (pero todo, no uno solo)

In [11]:
serie3.index = ['melocotones', 'sandias', 'melones']
serie3

melocotones    2500
sandias        3400
melones        8700
dtype: int64

In [6]:
serie3.index[0]='ciruelas'    # Esto da error

TypeError: Index does not support mutable operations

Se le puede asignar el nombre a una serie:
- Si se hace el gráfico saldrá el nombre
- Si se genera un dataframe, será el nombre de la columna

In [10]:
serie3.name = 'frutas'

## DataFrames

- Un DataFrame es la estructura de datos con la que Pandas almacena y manipula datos tabulados. 
- Tiene filas y columnas, acepta distintos tipos de datos de Numpy y permite interactuar entre ellos.
- Puedes ver cada columna de un dataframe como una serie
- Tiene un índice para las filas y otro para las columnas
- En palabras más sencillas, es como una hoja de cálculo de Excel.

<center>
<img src="./imgs/pandas.png"  alt="drawing" width="25%"/>
</center>

### Creación de Dataframes

Un Dataframe se crea mediante el constructor que puede recibir los siguientes parámetros:
- __data__: son los datos que va a almacenar el dataframe. Pueden ser un ndarray bidimensional, una serie, otro dataframe o un diccionario de Series
- __index__: Opcional. Son las etiquetas de las fila
- __columns__: Opcional. Son las etiquetas de las columnas
- __dtype__: Opcional. Fija el tipo de datos de todas las columas

In [12]:
# Crear un Dataframe usando un diccionario
football_dict = {
		    "player": ["Lionel Messi", "Cristiano Ronaldo"],
		    "year": [2016, 2016],
		    "goals": [37, 25]
}
football_stats = pd.DataFrame(football_dict)
print(football_stats)

              player  year  goals
0       Lionel Messi  2016     37
1  Cristiano Ronaldo  2016     25


In [44]:
# Crear un Dataframe usando un diccionario de listas

football_list = [
		    {"player": "Lionel Messi", "year": 2016, "goals": 37},
		    {"player": "Cristiano Ronaldo", "year": 2016, "goals": 25},
		]
football_stats = pd.DataFrame(football_list)
print(football_stats)

              player  year  goals
0       Lionel Messi  2016     37
1  Cristiano Ronaldo  2016     25


In [13]:
# Crear un DataFrame usando listas

player = ["Lionel Messi", "Cristiano Ronaldo"]
year = [2016, 2016]
goals = [37, 25]
football_stats = pd.DataFrame()
football_stats['player'] = player
football_stats['year'] = year
football_stats['goals'] = goals
print(football_stats)


              player  year  goals
0       Lionel Messi  2016     37
1  Cristiano Ronaldo  2016     25


In [42]:
# podemos crear un DataFrame sin valores
prueba_df = pd.DataFrame(columns=['pares', 'impares'])
prueba_df

Unnamed: 0,pares,impares


In [45]:
del football_stats

In [9]:
# Crear un Dataframe usando un loop

lista_pares = []
lista_impares =[]

for i in range(5):
    lista_pares.append(2*i)
    lista_impares.append(2*i+1)

numeros = pd.DataFrame()
numeros["pares"] = lista_pares
numeros["impares"] = lista_impares
print(numeros)

   pares  impares
0      0        1
1      2        3
2      4        5
3      6        7
4      8        9


In [34]:
numeros.columns=['pepe', 'jose']
print(numeros)

   pepe  jose
0     0     1
1     2     3
2     4     5
3     6     7
4     8     9


In [10]:
numeros.columns=['pares', 'impares']

Pandas ofrece métodos para __leer y escribir ficheros csv, excell etc.__ Esto lo veremos más adelante, pero para poder cargar un dataframe con datos, vamos a leer un fichero .csv con datos sobre futbol. Para ello usamos el método pd.read_csv()

In [3]:
footbal_stats = pd.read_csv('./data/Fullmetadata.csv', index_col='player_id')

Inspeccionar un Dataframe:
- df.head() → retorna las 5 primeras filas. También le puedes pasar un entero como parámetro y te devolverá esa cantidad de primeras filas.
- df.tail() → retorna las últimas 5 filas del dataset.
- df.sample() → es parecido a los 2 anteriores, pero este tomará muestras al azar del DataFrame.
- df.shape → retorna las filas y columnas que tiene el DataFrame.
- df.size → multiplica las filas y columnas y te da el total de datos del DataFrame.
- df.info() → este es genial, te da la cuenta de valores no nulos, el tipo de dato de cada columna (recuerda que solo puede haber un único tipo de dato por columna) y  el uso de memoria. Cuando estés procesando los datos, será un gran aliado.
- df.describe() → te ayudará mucho con las primeras impresiones de los datos. Calcula algunas estadísticas descriptivas para cada columna.

In [26]:
footbal_stats.head()

Unnamed: 0_level_0,player_name,games,time,goals,shots,key_passes,yellow_cards,red_cards,position,team_name
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
8865,Ollie Watkins,9,810,6,22,12,0,0,F,Aston Villa
675,Jack Grealish,9,810,5,26,26,2,0,F M,Aston Villa
592,Ross Barkley,6,454,2,17,15,0,0,M,Aston Villa
1024,Tyrone Mings,9,810,2,7,2,2,0,D,Aston Villa
7726,Ezri Konsa Ngoyo,9,810,2,7,0,0,0,D,Aston Villa


In [27]:
footbal_stats.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18633 entries, 8865 to 4363
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   player_name   18633 non-null  object
 1   games         18633 non-null  int64 
 2   time          18633 non-null  int64 
 3   goals         18633 non-null  int64 
 4   shots         18633 non-null  int64 
 5   key_passes    18633 non-null  int64 
 6   yellow_cards  18633 non-null  int64 
 7   red_cards     18633 non-null  int64 
 8   position      18633 non-null  object
 9   team_name     18633 non-null  object
dtypes: int64(7), object(3)
memory usage: 1.6+ MB


In [28]:
footbal_stats.shape

(18633, 10)

In [29]:
footbal_stats.describe()

Unnamed: 0,games,time,goals,shots,key_passes,yellow_cards,red_cards
count,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0,18633.0
mean,17.072291,1207.483282,1.624054,15.323888,11.354801,2.453979,0.127569
std,11.375527,975.753086,3.252418,20.934645,15.065863,2.685745,0.370656
min,1.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,7.0,326.0,0.0,1.0,1.0,0.0,0.0
50%,16.0,976.0,0.0,8.0,5.0,2.0,0.0
75%,27.0,2004.0,2.0,21.0,16.0,4.0,0.0
max,38.0,3420.0,48.0,227.0,146.0,17.0,5.0


Podemos recuperar los índices de las columns, filas y los valores del dataframe

In [4]:
# índice de las fila
footbal_stats.index

Int64Index([8865,  675,  592, 1024, 7726, 7721, 7723,  695,  884, 1053,
            ...
            4231, 4256, 4257, 4259, 4260, 4267, 4268, 4311, 4334, 4363],
           dtype='int64', name='player_id', length=18633)

In [5]:
# ïndice de las columnas
footbal_stats.columns

Index(['player_name', 'games', 'time', 'goals', 'shots', 'key_passes',
       'yellow_cards', 'red_cards', 'position', 'team_name'],
      dtype='object')

In [8]:
# Recuperar los valores
footbal_stats.values

array([['Ollie Watkins', 9, 810, ..., 0, 'F', 'Aston Villa'],
       ['Jack Grealish', 9, 810, ..., 0, 'F M', 'Aston Villa'],
       ['Ross Barkley', 6, 454, ..., 0, 'M', 'Aston Villa'],
       ...,
       ['Idir Ouali', 6, 296, ..., 0, 'M S', 'Paderborn'],
       ['Mirnes Pepic', 2, 20, ..., 0, 'S', 'Paderborn'],
       ['Thomas Bertels', 1, 3, ..., 0, 'S', 'Paderborn']], dtype=object)

Se pueden ordenar por columnas, usando el índice etc

In [1]:
footbal_stats.sort_values(by='team_name', ascending=False)

NameError: name 'footbal_stats' is not defined

### Indexación de dataframes

In [31]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4),
                         index=['f1', 'f2', 'f3', 'f4'],
                         columns=['c1','c2','c3','c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [11]:
numeros

Unnamed: 0,pares,impares
0,0,1
1,2,3
2,4,5
3,6,7
4,8,9


Indexación mediante clave

In [12]:
numeros.pares

0    0
1    2
2    4
3    6
4    8
Name: pares, dtype: int64

Indexación directa

In [13]:
numeros['pares']

0    0
1    2
2    4
3    6
4    8
Name: pares, dtype: int64

In [14]:
numeros[['pares']]

Unnamed: 0,pares
0,0
1,2
2,4
3,6
4,8


Indexación mediante método .loc[]

Con el método .loc podemos seleccionar una fila, una columna, un valor o un rango de valores usando claves

In [22]:
dataframe.loc['f1']

c1    0
c2    1
c3    2
c4    3
Name: f1, dtype: int32

In [23]:
dataframe.loc[:, 'c1']

f1     0
f2     4
f3     8
f4    12
Name: c1, dtype: int32

In [24]:
dataframe.loc['f1', 'c1']

0

Con el método .iloc[] indexamos usando enteros

In [25]:
dataframe.iloc[1]

c1    4
c2    5
c3    6
c4    7
Name: f2, dtype: int32

In [26]:
dataframe.iloc[:, 1]

f1     1
f2     5
f3     9
f4    13
Name: c2, dtype: int32

In [27]:
dataframe.iloc[1:3, 2:4]

Unnamed: 0,c3,c4
f2,6,7
f3,10,11


In [28]:
numeros.pares > 2

0    False
1    False
2     True
3     True
4     True
Name: pares, dtype: bool

In [29]:
numeros[numeros.pares>2]

Unnamed: 0,pares,impares
2,4,5
3,6,7
4,8,9


In [15]:
numeros.iloc[1:4, :][numeros.pares>2]

  numeros.iloc[1:4, :][numeros.pares>2]


Unnamed: 0,pares,impares
2,4,5
3,6,7


### Asignación en pandas

Podemos asignar valoes a columnas, filas o celdas individuales

In [20]:
numeros['primos'] = [1, 3, 5 ,7, 11]
numeros

Unnamed: 0,pares,impares,primos
0,0,1,1
1,2,3,3
2,4,5,5
3,6,7,7
4,8,9,11


In [25]:
numeros.iloc[1,2]=0
numeros

Unnamed: 0,pares,impares,primos
0,0,1,1
1,2,3,0
2,4,5,5
3,6,7,7
4,8,9,11


In [26]:
numeros[numeros.pares>2]=-1
numeros

Unnamed: 0,pares,impares,primos
0,0,1,1
1,2,3,0
2,-1,-1,-1
3,-1,-1,-1
4,-1,-1,-1


### Borrar columnas

In [28]:
del numeros['primos']
numeros

Unnamed: 0,pares,impares
0,0,1
1,2,3
2,-1,-1
3,-1,-1
4,-1,-1


In [29]:
numeros = numeros.iloc[:, :-1]
numeros

Unnamed: 0,pares
0,0
1,2
2,-1
3,-1
4,-1


In [32]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [34]:
dataframe.drop('c1', axis=1)

Unnamed: 0,c2,c3,c4
f1,1,2,3
f2,5,6,7
f3,9,10,11
f4,13,14,15


In [35]:
dataframe.drop('f1', axis=0)

Unnamed: 0,c1,c2,c3,c4
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [36]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [37]:
dataframe.drop('c1', axis=1, inplace=True)
dataframe

Unnamed: 0,c2,c3,c4
f1,1,2,3
f2,5,6,7
f3,9,10,11
f4,13,14,15


# EJERCICIOS

Leer los datos del fichero Fullmetadata.csv y almacenarlo en un DataFrame

In [47]:
footbal_stats = pd.read_csv('./data/Fullmetadata.csv', index_col='player_id')
footbal_stats

Unnamed: 0_level_0,player_name,games,time,goals,shots,key_passes,yellow_cards,red_cards,position,team_name
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
8865,Ollie Watkins,9,810,6,22,12,0,0,F,Aston Villa
675,Jack Grealish,9,810,5,26,26,2,0,F M,Aston Villa
592,Ross Barkley,6,454,2,17,15,0,0,M,Aston Villa
1024,Tyrone Mings,9,810,2,7,2,2,0,D,Aston Villa
7726,Ezri Konsa Ngoyo,9,810,2,7,0,0,0,D,Aston Villa
...,...,...,...,...,...,...,...,...,...,...
4267,Florian Hartherz,10,775,0,1,5,1,1,D S,Paderborn
4268,Christian Strohdiek,22,1608,0,6,3,2,0,D S,Paderborn
4311,Idir Ouali,6,296,0,4,1,1,0,M S,Paderborn
4334,Mirnes Pepic,2,20,0,0,0,0,0,S,Paderborn


Muestra una descripción de los datos

Muestra las 3 primeras filas

Selecciona las columnas player_names y goals

Elimina la columna games sin crear nuevo DataFrame

Selecciona los jugadores del Aston Villa

Selecciona los jugadores que hayan sido expulsados

Selecciona los jugadores que hayan visto una tarjeta amarilla pero no hayan sido expulsados

Ordena el DataFrame de mayor a menos tiempo jugado