# Usaremos este notebook para quitar las columnas que no son relevantes (o si lo son pero no las voy a usar)

In [1]:
import pandas as pd
from csv_2_json import ruta

In [2]:
df1 = pd.read_csv(ruta('ucl_advanced_goalkeeping.csv'))

In [3]:
df1[df1['Player'] == 'Thibaut Courtois'].head()

Unnamed: 0,Player,Nationality,Position,Club,Age,Born,90s,GA,PKA,FK,...,AvgLen,Att.2,Launch%.1,AvgLen.1,Opp,Stp,Stp%,#OPA,#OPA/90,AvgDist
7,Thibaut Courtois,BEL,GK,Real Madrid,30,1992,10,11,0,1,...,30,54,44.4,42.9,134,9,6.7,5,0.5,11.5


In [4]:
df1.columns

Index(['Player', 'Nationality', 'Position', 'Club', 'Age', 'Born', '90s', 'GA',
       'PKA', 'FK', 'CK', 'OG', 'PSxG', 'PSxG/SoT', 'PSxG+/-', '/90', 'Cmp',
       'Att', 'Cmp%', 'Att.1', 'Thr', 'Launch%', 'AvgLen', 'Att.2',
       'Launch%.1', 'AvgLen.1', 'Opp', 'Stp', 'Stp%', '#OPA', '#OPA/90',
       'AvgDist'],
      dtype='object')

1. **'90s'**: Número de partidos jugados, expresado en múltiplos de 90 minutos.

2. **'GA'**: Goles encajados.

3. **'PKA'**: Penales encajados.

4. **'FK'**: Goles encajados de tiros libres.

5. **'CK'**: Goles encajados de saques de esquina.

6. **'OG'**: Autogoles (goles en propia meta).

7. **'PSxG'**: Post-Shot Expected Goals. Goles esperados después de que el tiro haya sido realizado hacia el arco, una medida de cuántos goles un portero debería haber encajado, dadas las características de los tiros que enfrentó.

8. **'PSxG/SoT'**: PSxG por tiro a puerta (Shot on Target). Mide la calidad promedio de los tiros a puerta que enfrenta un portero.

9. **'PSxG+/-'**: Diferencia entre los goles encajados reales y los PSxG, indica el rendimiento del portero comparado con lo esperado.

10. **'/90'**: Estadísticas prorrateadas por cada 90 minutos de juego.

11. **'Cmp'**: Pases completados.

12. **'Att'**: Intentos de pase.

13. **'Cmp%'**: Porcentaje de pases completados.

14. **'Att.1'**: Intentos de algo (podría necesitar contexto adicional, posiblemente pases largos).

15. **'Thr'**: Saques de puerta (throws).

16. **'Launch%'**: Porcentaje de balones lanzados al área contraria.

17. **'AvgLen'**: Longitud promedio de los saques o pases del portero.

18. **'Att.2'**: Otro tipo de intentos (necesitaría más contexto, podría ser intentos de pase largo).

19. **'Launch%.1'**: Otra métrica de lanzamientos, posiblemente específica para otro tipo de lanzamientos.

20. **'AvgLen.1'**: Longitud promedio de otro tipo de despejes o pases.

21. **'Opp'**: Oportunidades o disparos enfrentados.

22. **'Stp'**: Paradas realizadas.

23. **'Stp%'**: Porcentaje de paradas, indicando eficiencia.

24. **'#OPA'**: Oportunidades de Paradas Avanzadas, una métrica avanzada de paradas realizadas más allá de las expectativas.

25. **'#OPA/90'**: Oportunidades de Paradas Avanzadas por cada 90 minutos.

26. **'AvgDist'**: Distancia promedio desde la línea de gol cuando el portero interviene o juega el balón.

In [5]:
columnas_a_dropear = ['#OPA','Stp','Launch%.1','Att.2','Att.1',"Launch%","Cmp","Att"]
df1.drop(columns=columnas_a_dropear, axis=1, inplace=True)
df1.fillna(0, inplace=True)

In [6]:
df1.columns

Index(['Player', 'Nationality', 'Position', 'Club', 'Age', 'Born', '90s', 'GA',
       'PKA', 'FK', 'CK', 'OG', 'PSxG', 'PSxG/SoT', 'PSxG+/-', '/90', 'Cmp%',
       'Thr', 'AvgLen', 'AvgLen.1', 'Opp', 'Stp%', '#OPA/90', 'AvgDist'],
      dtype='object')

In [7]:
df1.to_csv(r'docs\data\limpio\ucl_advanced_goalkeeping.csv')

## Segundo dataframe

In [8]:
df2 = pd.read_csv(ruta('ucl_goalkeeper.csv'))

In [9]:
df2.head()

Unnamed: 0,Player,Nationality,Position,Club,Age,Born,MP,Starts,Min,90s,...,W,D,L,CS,CS%,PKatt,PKA,PKsv,PKm,Save%.1
0,Antonio Adán,ESP,GK,Sporting CP,35,1987,5,5,382,4.2,...,2,1,2,2,40.0,1,1,0,0,0.0
1,Alisson,BRA,GK,Liverpool,29,1992,8,8,720,8.0,...,5,0,3,3,37.5,2,1,1,0,50.0
2,Kepa Arrizabalaga,ESP,GK,Chelsea,27,1994,9,9,810,9.0,...,4,1,4,3,33.3,0,0,0,0,
3,Janis Blaswich,GER,GK,RB Leipzig,31,1991,6,5,528,5.9,...,3,1,1,2,40.0,2,2,0,0,0.0
4,Yassine Bounou,MAR,GK,Sevilla,31,1991,4,4,360,4.0,...,0,1,3,0,0.0,0,0,0,0,


In [10]:
df2.columns

Index(['Player', 'Nationality', 'Position', 'Club', 'Age', 'Born', 'MP',
       'Starts', 'Min', '90s', 'GA', 'GA90', 'SoTA', 'Saves', 'Save%', 'W',
       'D', 'L', 'CS', 'CS%', 'PKatt', 'PKA', 'PKsv', 'PKm', 'Save%.1'],
      dtype='object')

1. **'MP'**: Matches Played (Partidos jugados). Total de partidos en los que el portero ha participado.

2. **'Starts'**: Número de partidos en los que el portero ha sido titular.

3. **'Min'**: Minutes (Minutos jugados). Total de minutos que el portero ha estado en el campo.

4. **'90s'**: Número de partidos jugados, expresado en múltiplos de 90 minutos (equivalente a un partido completo).

5. **'GA'**: Goals Allowed (Goles encajados). Total de goles que el portero ha recibido.

6. **'GA90'**: Goles encajados por cada 90 minutos. Esto muestra el promedio de goles recibidos en un partido completo.

7. **'SoTA'**: Shots on Target Against (Tiros a puerta enfrentados). Cantidad de tiros dirigidos a la portería que el portero ha enfrentado.

8. **'Saves'**: Paradas realizadas.

9. **'Save%'**: Porcentaje de paradas, calculado como el número de tiros a puerta parados dividido por el total de tiros a puerta enfrentados.

10. **'W'**: Wins (Victorias). Número de partidos ganados con el portero en juego.

11. **'D'**: Draws (Empates). Número de partidos empatados con el portero en juego.

12. **'L'**: Losses (Derrotas). Número de partidos perdidos con el portero en juego.

13. **'CS'**: Clean Sheets (Porterías a cero). Número de partidos en los que el portero no ha encajado ningún gol.

14. **'CS%'**: Porcentaje de Porterías a cero, calculado como el número de partidos sin encajar goles dividido por el total de partidos jugados.

15. **'PKatt'**: Penalty Kicks Attempted (Penales enfrentados). Número de penales que el portero ha enfrentado.

16. **'PKA'**: Penalty Kicks Allowed (Penales encajados). Número de penales que han resultado en gol.

17. **'PKsv'**: Penalty Kicks Saved (Penales parados). Número de penales que el portero ha logrado parar.

18. **'PKm'**: Penalty Kicks Missed (Penales fallados). Número de penales que los adversarios han fallado (disparados fuera o al poste).

19. **'Save%.1'**: Podría ser una repetición del porcentaje de paradas en una situación específica (como paradas en juego abierto o específicamente en penales), dependiendo del contexto del dato.

In [11]:
columnas_a_dropear = ['Save%.1', 'Saves', 'CS', 'GA']

In [12]:
df2.drop(columns=columnas_a_dropear, axis=1, inplace=True)
df2.fillna(0, inplace=True)

In [13]:
df2.columns

Index(['Player', 'Nationality', 'Position', 'Club', 'Age', 'Born', 'MP',
       'Starts', 'Min', '90s', 'GA90', 'SoTA', 'Save%', 'W', 'D', 'L', 'CS%',
       'PKatt', 'PKA', 'PKsv', 'PKm'],
      dtype='object')

In [14]:
df2.to_csv(r'docs\data\limpio\ucl_goalkeeper.csv')

# Ahora tocan los defensas