# 2. Preparación y exploración de datos

Una vez cargados los datos en un dataframe pandas comienza una tarea (ardua en muchos casos) de limpieza y procesamiento del dataframe, para que éste pueda ser utilizado en el entrenamiento de modelos de Machine Learning.

Siempre, y antes de proceder a entrenar modelos, es aconsejable realizar un análisis de los datos, que por sí solo puede llevar a conclusiones importantes.

El **proceso** sería: 

- **Carga de datos** en un dataframe pandas.

- **Limpieza y procesamiento** del dataframe.

- **Exploración** de los datos. Dicha exploración se compone de **dos partes**:

    * **Exploración del** propio **dataframe** (con funciones estadísticas, etc.).
    
    * **Exploración visual** por medio de librerías de gráficos (se estudia en el próximo módulo de la asignatura.
    
En esta parte de la asignatura **nos enfocaremos en el procesamiento previo del dataframe y en su exploración** (dejando la exploración gráfica para el siguiente módulo).



In [1]:
import numpy as np
import pandas as pd

## Visualizar tipos de variable (df.dtypes)

In [77]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
catastro.dtypes

  """Entry point for launching an IPython kernel.


año                  int64
id_distrito          int64
distrito            object
id_barrio            int64
barrio              object
id_uso              object
uso                 object
num_inmuebles        int64
año_cons_medio     float64
sup_cons           float64
sup_suelo          float64
valor_catastral    float64
dtype: object

## Gestión de datos en blanco (<i>missing values</i>)

En la mayoría de los ficheros utilizados como fuente de datos, es muy común la **existencia de valores nulos** (en blanco, <i>missing</i>...). Estos "huecos" en la información suelen ser muy problemáticos ya que tiene un impacto importante a la hora de realizar cualquier tipo de cálculo numérico y son difícilmente interpretables.<br/>
Uno de los objetivos de pandas en su construcción fue facilitar el tratamiento de este tipo de datos no existentes ofreciendo múltiples funciones que permiten llevar a cabo tanto su detección, como su eliminación o imputación...

### Detección de <i>missing values</i>

Pandas ofrece principalmente dos funciones para manejar la detección de valores nulos.<br/>
<ul>
<li><b>isnull:</b> Que devuelve una Serie o DataFrame booleano indicando qué elemetos son NaN o None.</li>
<li><b>notnull:</b> Que devuelve el inverso del anterior.</li>

In [2]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
catastro

  """Entry point for launching an IPython kernel.


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [3]:
# Detección de valores nulos
catastro.isnull()

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,False,True,False
5,False,False,False,False,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False,True,True,False,False
7,False,False,False,False,False,False,False,False,False,False,True,False
8,False,False,False,False,False,False,False,False,False,False,True,False
9,False,False,False,False,False,False,False,False,False,False,True,False


In [4]:
# Detección de valores no nulos
catastro.notnull()

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,True,True,True,True,True,True,True,True,True,True,False,True
1,True,True,True,True,True,True,True,True,True,True,False,True
2,True,True,True,True,True,True,True,True,True,True,False,True
3,True,True,True,True,True,True,True,True,True,True,False,True
4,True,True,True,True,True,True,True,True,True,True,False,True
5,True,True,True,True,True,True,True,True,True,True,False,True
6,True,True,True,True,True,True,True,True,False,False,True,True
7,True,True,True,True,True,True,True,True,True,True,False,True
8,True,True,True,True,True,True,True,True,True,True,False,True
9,True,True,True,True,True,True,True,True,True,True,False,True


### Eliminación de registros con <i>missing values</i>

Aunque SIEMPRE conviene hacer un estudio cuidadoso del por qué y la casuística de los valores nulos, uno de los posibles tratamientos a aplicar es su eliminación directa del set de datos. Pandas, nos ofrece el método <b>dropna</b> para llevar a cabo esta tarea. Los parámetros de este método son:<br/>
<ul>
<li><b>axis:</b> Selección de eje sobre el que realizar la eliminación.</li>
<li><b>how:</b> Tomará posibles valores <b>'any' y 'all'</b> e indica si se debe eliminar la fila o columna <b>cuando haya uno o más valores NaN o cuando todos los valores sean NaN</b>.</li>
<li><b>thresh:</b> Permite indicar, el <b>número de observaciones no nulas</b> que se deben tener <b>para  no realizar el borrado</b>.</li>
</ul>

In [31]:
print('........Cargando catastro.......')
catastro = pd.read_table('datos/catastro.tsv')
# Eliminación de filas con al menos 1 NA
print('Número de filas antes de limpieza de Nulls:',len(catastro))
catastro=catastro.dropna(how='any')
print('Número de filas después de limpieza de Nulls:',len(catastro))

........Cargando catastro.......
Número de filas antes de limpieza de Nulls: 3030
Número de filas después de limpieza de Nulls: 0


  


In [32]:
# Ahora pedimos como requisito para borrar que todos los valores de la fila sean NaN
print('........Cargando catastro.......')
catastro = pd.read_table('datos/catastro.tsv')
# Eliminación de filas con al menos 1 NA
print('Número de filas antes de limpieza de Nulls:',len(catastro))
catastro=catastro.dropna(how='all')
print('Número de filas después de limpieza de Nulls:',len(catastro))

........Cargando catastro.......
Número de filas antes de limpieza de Nulls: 3030
Número de filas después de limpieza de Nulls: 3030


  This is separate from the ipykernel package so we can avoid doing imports until


In [38]:
# Borramos filas con NaN pero mantenemos aquellas que tengan al menos 11 valores no nulos.
print('........Cargando catastro.......')
catastro = pd.read_table('datos/catastro.tsv')
# Eliminación de filas con al menos 1 NA
print('Número de filas antes de limpieza de Nulls:',len(catastro))
catastro=catastro.dropna(thresh=11)
print('Número de filas después de limpieza de Nulls:',len(catastro))

........Cargando catastro.......
Número de filas antes de limpieza de Nulls: 3030
Número de filas después de limpieza de Nulls: 2779


  This is separate from the ipykernel package so we can avoid doing imports until


## Imputación de  <i>missing values</i>

Existirán **casos en los que no se desee** (o no se pueda) **eliminar** los registros con valores nulos (p.e. podrían suponer un porcentaje demasiado elevado de nuestro set de datos). En estos casos, habrá que realizar una **imputación** de los mismos **a un valor** preestablecido.<br/>
Pandas pone a nuestra disposición el **método <b>fillna</b>**, que cuenta, entre otros, con los siguientes **parámetros**:<br/>
<ul>
<li><b>axis:</b> Que decide si aplicará el criterio de relleno por filas o columnas.</li>
<li><b>value:</b> Que rellena los valores nulos a un valor fijo.</li>
</ul>

In [6]:
# IMPUTACIÓN CON UN VALOR PREDETERMINADO
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
# Imputación de valores a 0
catastro=catastro.fillna(0)
catastro.head(100)

  


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [8]:
# IMPUTACIÓN CON UN ESTADÍSTICO
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
print(catastro.head(10))
print('sup_suelo media',catastro['sup_suelo'].mean())
catastro=catastro.fillna(catastro.mean())
catastro

    año  id_distrito distrito  id_barrio   barrio id_uso  \
0  2014            1   Centro         11  PALACIO      A   
1  2014            1   Centro         11  PALACIO      C   
2  2014            1   Centro         11  PALACIO      E   
3  2014            1   Centro         11  PALACIO      G   
4  2014            1   Centro         11  PALACIO      I   
5  2014            1   Centro         11  PALACIO      K   
6  2014            1   Centro         11  PALACIO      M   
7  2014            1   Centro         11  PALACIO      O   
8  2014            1   Centro         11  PALACIO      P   
9  2014            1   Centro         11  PALACIO      R   

                                                 uso  num_inmuebles  \
0                            Almacén-Estacionamiento           3034   
1                                          Comercial           1407   
2                                           Cultural             36   
3                                  Ocio y Hostelería   

  


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,130010.0,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,130010.0,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,130010.0,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,130010.0,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,130010.0,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,130010.0,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,1928.444444,125865.888889,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,130010.0,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,130010.0,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,130010.0,114254200.0


In [37]:
#COMPROBACIÓN CON UN EJEMPLO SENCILLO
df=pd.DataFrame(np.random.rand(10).reshape(5,2),columns=['a','b'])

df['a'].iloc[3]=float('NaN')
df['b'].iloc[1]=float('NaN')

print('means',df['a'].mean(),df['b'].mean())
print(df)
df=df.fillna(df.mean())
print(df)

means 0.6550411339530455 0.6036618084612693
          a         b
0  0.472663  0.790254
1  0.846892       NaN
2  0.591346  0.552935
3       NaN  0.935681
4  0.709264  0.135777
          a         b
0  0.472663  0.790254
1  0.846892  0.603662
2  0.591346  0.552935
3  0.655041  0.935681
4  0.709264  0.135777


Unnamed: 0,a,b
0,False,False
1,False,False
2,False,False
3,False,False
4,False,False


## Visión estadística del dataframe

Al igual que NumPy, pandas ofrece un conjunto amplio de funciones para llevar a cabo un **análisis estadístico de datos**.  Las más relevantes serían:<br/>
<ul>
<li><b>describe:</b> Presenta un conjunto con las estadísticas básicas más comunes calculadas sobre todas las columnas de la estructura. Equivalente a la función <i>summary</i> de R.</li>
<li><b>count:</b> Número de elementos no nulos.</li>
<li><b>min, max:</b> Valor mínimo y máximo.</li>
<li><b>argmin, argmax, idxmax, idxmin:</b> Posiciones con valor mínimo y máximo.</li>
<li><b>quantile:</b> Cuantil calculado.</li>
<li><b>sum:</b> Suma de elementos.</li>
<li><b>mean:</b> Media aritmética de los elementos.</li>
<li><b>median:</b> Mediana de los elementos.</li>
<li><b>std:</b> Desviación estándar de los elementos.</li>
<li><b>var:</b> Varianza de los elementos.</li>
<li><b>cumsum:</b> Suma acumulada de los elementos.</li>
<li><b>cumprod:</b> Producto acumulado de los elementos.</li>
</ul>

La mayor parte de estos métodos, podrán recibir 3 parámetros:
<ul>
<li><b>axis:</b> Que indica si realizar el cálculo por filas o columnas.</li>
<li><b>skipna:</b> Que indica si se deben ignorar o no los valores NaN a la hora de realizar los cálculos.</li>
</ul>

In [41]:
# Estadísticos básicos sobre el data set
catastro = pd.read_table('datos/catastro.tsv')
catastro.describe()

  


Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
count,3030.0,3030.0,3030.0,3030.0,2779.0,2779.0,251.0,3030.0
mean,2013.50066,10.409571,107.859076,1403.419472,1970.994602,186915.2,853546.4,189544200.0
std,0.500082,5.799578,58.035732,3845.856589,50.989196,411341.4,3104010.0,464089400.0
min,2013.0,1.0,11.0,1.0,283.0,26.0,261.0,16058.25
25%,2013.0,6.0,61.0,5.0,1964.0,7903.0,24855.0,6932275.0
50%,2014.0,10.0,105.0,21.5,1974.0,35464.0,85799.0,28963450.0
75%,2014.0,15.0,155.0,369.0,1984.0,137430.0,341138.5,109683700.0
max,2014.0,21.0,215.0,36289.0,2013.0,4511346.0,23970700.0,3670799000.0


In [None]:
# Suma por columnas
catastro.sum()

In [None]:
# Suma por filas ignorando NA
catastro.sum(axis=1, skipna=True)

In [None]:
catastro.mean()

## Elementos únicos y frecuencias

<ul>
<li><b>unique</b>: Que nos devuelve un array con el conjunto de elementos únicos de una Serie.</li>
<li><b>value_counts</b>: Que realiza un cálculo de frecuencias sobre los elementos únicos de una Serie.</li>
<li><b>isin:</b> Que nos permite chequear si un conjunto de valores se encuentra en una Serie.</li>
</ul>

In [49]:
catastro = pd.read_table('datos/catastro.tsv')


  """Entry point for launching an IPython kernel.


In [50]:
# Conjunto de de barrios
catastro.barrio.unique()

array(['PALACIO', 'EMBAJADORES', 'CORTES', 'JUSTICIA', 'UNIVERSIDAD',
       'SOL', 'IMPERIAL', 'ACACIAS', 'CHOPERA', 'LEGAZPI', 'DELICIAS',
       'PALOS DE MOGUER', 'ATOCHA', 'PACÍFICO', 'ADELFAS', 'ESTRELLA',
       'IBIZA', 'LOS JERÓNIMOS', 'NIÑO JESÚS', 'RECOLETOS', 'GOYA',
       'FUENTE DEL BERRO', 'GUINDALERA', 'LISTA', 'CASTELLANA', 'EL VISO',
       'PROSPERIDAD', 'CIUDAD JARDÍN', 'HISPANOAMÉRICA', 'NUEVA ESPAÑA',
       'CASTILLA', 'BELLAS VISTAS', 'CUATRO CAMINOS', 'CASTILLEJOS',
       'ALMENARA', 'VALDEACEDERAS', 'BERRUGUETE', 'GAZTAMBIDE',
       'ARAPILES', 'TRAFALGAR', 'ALMAGRO', 'RIOS ROSAS', 'VALLEHERMOSO',
       'EL PARDO', 'FUENTELARREINA', 'PEÑA GRANDE', 'EL PILAR', 'LA PAZ',
       'VALVERDE', 'MIRASIERRA', 'EL GOLOSO', 'CASA DE CAMPO',
       'ARGÜELLES', 'CIUDAD UNIVERSITARIA', 'VALDEZARZA', 'VALDEMARÍN',
       'EL PLANTÍO', 'ARAVACA', 'LOS CARMENES', 'PUERTA DEL ANGEL',
       'LUCERO', 'ALUCHE', 'CAMPAMENTO', 'CUATRO VIENTOS', 'LAS AGUILAS',
       'COMILLA

In [47]:
# Tabla de frecuencias de distritos
catastro.distrito.value_counts(normalize=True) #Si no normalizamos da el número de apariciones, no la frecuencia

Ciudad Lineal            0.070627
Fuencarral - El Pardo    0.062376
San Blas                 0.061386
Moncloa - Aravaca        0.056766
Carabanchel              0.054785
Latina                   0.054455
Usera                    0.052805
Centro                   0.051485
Salamanca                0.051155
Arganzuela               0.050495
Puente de Vallecas       0.049505
Chamartín                0.048845
Chamberí                 0.048515
Tetuán                   0.047525
Hortaleza                0.046865
Retiro                   0.045215
Moratalaz                0.041254
Barajas                  0.037624
Villaverde               0.036964
Vicálvaro                0.016172
Villa de Vallecas        0.015182
Name: distrito, dtype: float64

## Correlación y covarianza

### Correlación

Función **f.corr()**

Parámetro: **Method**:

   - **pearson** : standard correlation coefficient

   - kendall : Kendall Tau correlation coefficient

   - **spearman** : Spearman rank correlation

In [38]:
catastro.corr()

Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
año,,,,,,,,
id_distrito,,,,,,,,
id_barrio,,,,,,,,
num_inmuebles,,,,1.0,0.523272,0.613234,,0.285101
año_cons_medio,,,,0.523272,1.0,-0.079688,,-0.237233
sup_cons,,,,0.613234,-0.079688,1.0,,0.800653
sup_suelo,,,,,,,,
valor_catastral,,,,0.285101,-0.237233,0.800653,,1.0


### Covarianza

**df.cov()**

In [41]:
data=pd.read_excel('datos/all-euro-data-2020-2021.xlsx',sheet_name='E0')
data.cov()

Unnamed: 0,FTHG,FTAG,HTHG,HTAG,HS,AS,HST,AST,HF,AF,...,AvgC<2.5,AHCh,B365CAHH,B365CAHA,PCAHH,PCAHA,MaxCAHH,MaxCAHA,AvgCAHH,AvgCAHA
FTHG,1.857258,-0.087960,0.861739,0.001605,2.450368,-1.108361,2.197592,-0.398261,-0.687893,-0.040067,...,0.107071,-0.416120,0.022412,-0.019650,2.147023e-02,-0.023443,0.014682,-0.011551,0.015508,-0.017390
FTAG,-0.087960,1.621795,-0.012207,0.717837,-1.357246,2.059643,-0.577592,1.736455,-0.097993,0.022129,...,0.023059,0.263127,-0.015913,0.010630,-1.372018e-02,0.015530,-0.010762,0.014541,-0.013764,0.014094
HTHG,0.861739,-0.012207,0.723512,-0.007559,0.858963,-0.126087,0.958328,-0.113846,-0.325552,-0.113679,...,0.077147,-0.184231,0.006440,-0.005243,6.019398e-03,-0.006705,0.005100,-0.003936,0.004978,-0.004866
HTAG,0.001605,0.717837,-0.007559,0.663501,-0.329744,0.659086,-0.220334,0.685217,-0.068629,-0.073200,...,0.011585,0.136689,-0.007837,0.004647,-7.666444e-03,0.007904,-0.006838,0.007988,-0.007798,0.007142
HS,2.450368,-1.357246,0.858963,-0.329744,29.428082,-9.836232,9.864682,-3.568696,-0.412508,-0.214571,...,0.279171,-2.182559,0.088815,-0.067935,7.606399e-02,-0.080099,0.048640,-0.055971,0.061778,-0.067006
AS,-1.108361,2.059643,-0.126087,0.659086,-9.836232,22.179487,-2.948495,6.908361,0.403344,0.332553,...,0.075187,1.850836,-0.080181,0.065729,-6.992865e-02,0.071916,-0.067283,0.054909,-0.067099,0.069003
HST,2.197592,-0.577592,0.958328,-0.220334,9.864682,-2.948495,6.610435,-1.242542,-0.441204,-0.125819,...,0.181036,-0.947258,0.045260,-0.033855,4.111171e-02,-0.043908,0.024603,-0.030442,0.030633,-0.034021
AST,-0.398261,1.736455,-0.113846,0.685217,-3.568696,6.908361,-1.242542,5.249231,0.381003,0.057258,...,0.030185,0.785050,-0.030845,0.024072,-3.094448e-02,0.033724,-0.024553,0.027181,-0.027790,0.028704
HF,-0.687893,-0.097993,-0.325552,-0.068629,-0.412508,0.403344,-0.441204,0.381003,11.877324,0.966622,...,-0.177043,0.246087,-0.007688,0.009781,-5.486288e-03,0.017427,-0.007058,-0.002856,-0.005161,0.012242
AF,-0.040067,0.022129,-0.113679,-0.073200,-0.214571,0.332553,-0.125819,0.057258,0.966622,12.747949,...,-0.113115,0.072759,0.007536,-0.002197,1.136210e-02,-0.011157,-0.000629,-0.007578,0.003717,-0.007744


## Label encoding

Si queremos **incluir variables no numéricas en nuestros análisis/modelos** debemos mapear dichas variables a nuevas variables numéricas. Para ello utilizamos un **labelencoder**, que es un **objeto que codifica** los valores no numéricos en valores numéricos y **mantiene internamente dicho mapeo**, de forma que podemos hacer la **transformación inversa** en cualquier momento.

In [64]:
data=pd.read_excel('datos/all-euro-data-2020-2021.xlsx',sheet_name='E0')

In [65]:
from sklearn.preprocessing import LabelEncoder 
encoder_team=LabelEncoder()
encoder_league=LabelEncoder()
feats=['Div','HomeTeam','AwayTeam']
print(data[feats].head())
for feat in feats:
    if feat=='Div':
        encoder=encoder_league
    else:
        encoder=encoder_team
    data[feat]=encoder.fit_transform(data[feat].values)
data[feats].head()

  Div        HomeTeam     AwayTeam
0  E0          Fulham      Arsenal
1  E0  Crystal Palace  Southampton
2  E0       Liverpool        Leeds
3  E0        West Ham    Newcastle
4  E0       West Brom    Leicester


Unnamed: 0,Div,HomeTeam,AwayTeam
0,0,7,0
1,0,5,15
2,0,10,8
3,0,18,13
4,0,17,9


In [66]:
#Recuperamos los valores originales
feats=['Div','HomeTeam','AwayTeam']
for feat in feats:
    if feat=='Div':
        encoder=encoder_league
    else:
        encoder=encoder_team
    data[feat]=encoder.inverse_transform(data[feat].values)
data[feats].head()

Unnamed: 0,Div,HomeTeam,AwayTeam
0,E0,Fulham,Arsenal
1,E0,Crystal Palace,Southampton
2,E0,Liverpool,Leeds
3,E0,West Ham,Newcastle
4,E0,West Brom,Leicester


## Normalización de variables

Para **visualización estadística** e implementación de algunos **modelos de ML** es **aconsejable** que las **variables** estén **normalizadas**, para que sean **comparables** unas con otras.

**x_normalizada=(x-mu)/std**

Disponemos de un objeto llamado **StandardScaler** para transformar las variables. Al igual que con el LabelEncoder podemos realizar la **transformación inversa** en cualquier momento.

In [69]:
data=pd.read_excel('datos/all-euro-data-2020-2021.xlsx',sheet_name='SP1')

In [70]:
# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
goles_home_scaled = sc.fit_transform(data)

ValueError: could not convert string to float: 'SP1'

**FALLA PORQUE HAY VARIABLES NO NUMÉRICAS**. **O BIEN** ESCALAMOS **SOLO LAS NUMÉRICAS O BIEN** HACEMOS UN **LABEL ENCODING** SOBRE LAS QUE NO LO SON Y DESPUÉS PROCEDEMOS A ESCALAR.

In [89]:
types=data.dtypes # Vemos las variables que no son normalizables
types

Div                  object
Date         datetime64[ns]
Time                 object
HomeTeam             object
AwayTeam             object
FTHG                  int64
FTAG                  int64
FTR                  object
HTHG                  int64
HTAG                  int64
HTR                  object
HS                    int64
AS                    int64
HST                   int64
AST                   int64
HF                    int64
AF                    int64
HC                    int64
AC                    int64
HY                    int64
AY                    int64
HR                    int64
AR                    int64
B365H               float64
B365D               float64
B365A               float64
BWH                 float64
BWD                 float64
BWA                 float64
IWH                 float64
                  ...      
PSCA                float64
WHCH                float64
WHCD                float64
WHCA                float64
VCCH                

In [94]:
feats=['FTHG','FTAG'] # Tomamos las variables goles equipo de casa/fuera al final del partido
print(data[feats].head())
sc=StandardScaler()
data[feats]=sc.fit_transform(data[feats])
data[feats].head()

   FTHG  FTAG
0     0     0
1     2     0
2     0     2
3     0     1
4     1     1


Unnamed: 0,FTHG,FTAG
0,-1.140802,-1.079726
1,0.56452,-1.079726
2,-1.140802,0.835384
3,-1.140802,-0.122171
4,-0.288141,-0.122171


In [95]:
#Podemos deshacer la normalización en cualquier momento
data[feats]=sc.inverse_transform(data[feats])
data[feats].head()

Unnamed: 0,FTHG,FTAG
0,0.0,0.0
1,2.0,0.0
2,0.0,2.0
3,0.0,1.0
4,1.0,1.0


## Aplicación de funciones sobre series/dataframes

### Aplicación de funciones elemento a elemento sobre Series - Función map

In [52]:
serie = pd.Series([1, 2, 3, 4, 5, 6])
serie

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [53]:
def es_par(elemento):
    if elemento % 2 == 0:
        return 'Par: ' + str(elemento)
    else:
        return 'Impar: ' + str(elemento)

In [54]:
# Aplicación de función elemento a elemento sobre Serie
serie.map(es_par)

0    Impar: 1
1      Par: 2
2    Impar: 3
3      Par: 4
4    Impar: 5
5      Par: 6
dtype: object

### Aplicación de funciones elemento a elemento sobre DataFrames - Función applymap

In [55]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4))
dataframe

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [56]:
def es_par(elemento):
    if elemento % 2 == 0:
        return 'Par: ' + str(elemento)
    else:
        return 'Impar: ' + str(elemento)

In [57]:
# Aplicación de función elemento a elemento sobre DataFrame
dataframe.applymap(es_par)

Unnamed: 0,0,1,2,3
0,Par: 0,Impar: 1,Par: 2,Impar: 3
1,Par: 4,Impar: 5,Par: 6,Impar: 7
2,Par: 8,Impar: 9,Par: 10,Impar: 11
3,Par: 12,Impar: 13,Par: 14,Impar: 15


### Aplicación de funciones fila a fila o columna a columna sobre DataFrames - Función apply

In [58]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4))
dataframe

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [59]:
def es_suma_par(elemento):
    if np.sum(elemento) % 2 == 0:
        return 'Suma par: ' + str(np.sum(elemento))
    else:
        return 'Suma impar: ' + str(np.sum(elemento))

In [84]:
# Aplicación de función por columnas sobre DataFrame
dataframe.apply(es_suma_par)

0    Suma par: 24
1    Suma par: 28
2    Suma par: 32
3    Suma par: 36
dtype: object

In [85]:
# Aplicación de función por filas sobre DataFrames
dataframe.apply(es_suma_par, axis=1)

0     Suma par: 6
1    Suma par: 22
2    Suma par: 38
3    Suma par: 54
dtype: object

#### lambda function

It is a function defined ad hoc and having a single line

In [91]:
df=pd.DataFrame(np.random.randn(16).reshape(4,4))
df.columns=['a','b','c','d']
df['d']=df['d'].apply(lambda x: 1 if x>=0 else 0)
df

Unnamed: 0,a,b,c,d
0,-0.081578,2.27364,1.311392,1
1,-0.810878,-1.75346,-1.251278,1
2,-1.266556,1.374277,-0.446855,0
3,0.592987,2.047497,-0.263667,1


### Shift and diff

Podemos jugar con **diferencias relativas de posición dentro del dataframe** usando shift and diff.

#### Shift

Shift es un **desplazamiento hacia detrás o delante** en el dataframe

In [97]:
data=pd.read_excel('datos/all-euro-data-2020-2021.xlsx',sheet_name='SP2')

In [108]:
feats=['HomeTeam','HTHG'] #Variable: goles del equipo de casa al final de primera parte
team='Ponferradina'
data_filtered=data[data['HomeTeam']==team]
print(data_filtered[feats].head())
data_filtered['ultimo_resultado']=data_filtered['HTHG'].shift() #periods=1 por defecto
feats.append('ultimo_resultado')
data_filtered[feats].head()


        HomeTeam  HTHG
0   Ponferradina     1
26  Ponferradina     3
49  Ponferradina     0
64  Ponferradina     1
98  Ponferradina     0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """


Unnamed: 0,HomeTeam,HTHG,ultimo_resultado
0,Ponferradina,1,
26,Ponferradina,3,1.0
49,Ponferradina,0,3.0
64,Ponferradina,1,0.0
98,Ponferradina,0,1.0


In [110]:
feats=['HomeTeam','HTHG'] #Variable: goles del equipo de casa al final de primera parte
team='Ponferradina'
data_filtered=data[data['HomeTeam']==team]
print(data_filtered[feats].head())
data_filtered['ultimo_resultado']=data_filtered['HTHG'].shift(periods=3) 
feats.append('ultimo_resultado')
data_filtered[feats].head()

        HomeTeam  HTHG
0   Ponferradina     1
26  Ponferradina     3
49  Ponferradina     0
64  Ponferradina     1
98  Ponferradina     0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """


Unnamed: 0,HomeTeam,HTHG,ultimo_resultado
0,Ponferradina,1,
26,Ponferradina,3,
49,Ponferradina,0,
64,Ponferradina,1,1.0
98,Ponferradina,0,3.0


#### Diff

Diff calcula la **diferencia entre dos valores relativos** dentro del dataframe

In [111]:
data=pd.read_excel('datos/all-euro-data-2020-2021.xlsx',sheet_name='SP1')

In [116]:
feats=['AwayTeam','HTAG'] #Variable: goles del equipo de casa al final de primera parte
print(data[feats].head())
print()
team='Eibar'
data_filtered=data[data['AwayTeam']==team]
print(data_filtered[feats].head())
data_filtered['Diferencia']=data_filtered['HTAG'].diff() #Calcula valor actual - valor anterior (periods=1 por defecto)
feats.append('Diferencia')
data_filtered[feats].head()


     AwayTeam  HTAG
0       Celta     0
1  Ath Bilbao     0
2     Osasuna     1
3       Betis     0
4    Sociedad     0

    AwayTeam  HTAG
7      Eibar     0
33     Eibar     1
56     Eibar     1
74     Eibar     1
102    Eibar     0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  import sys


Unnamed: 0,AwayTeam,HTAG,Diferencia
7,Eibar,0,
33,Eibar,1,1.0
56,Eibar,1,0.0
74,Eibar,1,0.0
102,Eibar,0,-1.0


In [117]:
#AHORA CALCULAMOS LA DIFERENCIA EN UN INTERVALO MAYOR
feats=['AwayTeam','HTAG'] #Variable: goles del equipo de casa al final de primera parte
print(data[feats].head())
print()
team='Eibar'
data_filtered=data[data['AwayTeam']==team]
print(data_filtered[feats].head())
data_filtered['Diferencia']=data_filtered['HTAG'].diff(periods=3) #Calcula valor actual - valor anterior (periods=1 por defecto)
feats.append('Diferencia')
data_filtered[feats].head()

     AwayTeam  HTAG
0       Celta     0
1  Ath Bilbao     0
2     Osasuna     1
3       Betis     0
4    Sociedad     0

    AwayTeam  HTAG
7      Eibar     0
33     Eibar     1
56     Eibar     1
74     Eibar     1
102    Eibar     0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Unnamed: 0,AwayTeam,HTAG,Diferencia
7,Eibar,0,
33,Eibar,1,
56,Eibar,1,
74,Eibar,1,1.0
102,Eibar,0,-1.0
