# Proyecto Final 

## Introducción 

### DataSet

El dataset utilizado para este proyecto corresponde a 5 archivos que contienen información de las principales ligas europeas y sus jugadores. Esta información corresponde a las temporadas 2008/2009 y 2009/2010 e incluye también detalles acerca de los distintos encuetros que se llevaron a cabo dentro de dicho período, en qué ligas, cuáles fueron los equipos que perticiparon, quiénes formaban parte de la plantilla en ese momento, entre otros. 

Algo que también incluye este dataset y resulta ser informaicón valiosa para fines de análisis de la información, son estadísticas que responden a un desempeño muy específico y de interés para los clubes y entrenadores, al momento de identificar el rendimieno que está teniendo su plantilla a lo largo de un torneo regular. En este sentido, es posible para la persona que esté analizando la información inferir sobre indicadores tales como velocidad, aceleración, capacidad de regate, balance o potencia de tiros. Además también se incluyen calificaciones cualitativas de las capacidades del jugar ya sea en defensa o ataque, así como indicadores tan básicos y pero sumamente importantes como la pierna predilecta del jugador. 

### Principales Tablas 

Las tablas que conforman este conjunto de datos son: 

- Country
- League
- Match
- Player
- Playes_attributes
- Team
- Team Attributes 

Archivos CSV: https://drive.google.com/drive/folders/10pXsNHf-ucQXfpJfh4GgeI33wkNdt_f2?usp=sharing

Dentro de la tabla League se definen los identificadores principales de las ligas más importantes de Europa

![image](https://user-images.githubusercontent.com/99599847/162853492-c5bf1397-ecb9-4da2-9107-3bca3ec214e4.png)

En las tablas de Team y Team Attributes se puede encontrar el consolidado de los equipos con su respectivo id único y id fifa. Los atributos más relevantes para fines de análisis que sobresaltan son los que corresponden al estilo de juego que tiene cada uno de los equipos, características defensivas, de ataque, dribleo, etc. 

![image](https://user-images.githubusercontent.com/99599847/162853676-080e3866-6a5e-4dce-af60-ef906e6fde03.png)

Las tablas de Player y Player_attributes son muy similares a las tablas de equipos, una plantea la información general de los jugadores como nombre, fecha de nacimiento y algunos ids específicos, y otra contiene detalles más específicos que corresponden al performance de los jugadores y skills específicos que definen cuáles son sus atributos principales para el funcionamiento dentro del equipo. 

![image](https://user-images.githubusercontent.com/99599847/162853995-6237f79d-2b2c-4fc3-9a07-4f73bf483862.png)

Por último, la tabla Match consolidado un alto número de identificadores que permite tener el consolidado de todos los juegos y las estadísticas de cada uno de ellos durante las dos temporadas que consolidada el dataset. Acá se muestra información relevante estadísticamente del juego, tan básico como los goles, tiros y corners, hasta indicadores más específicos que  se utilizan a niveles más profundos de análisis del juego y que permiten tener un mejor entendimiento del performance que tuvieron ambos equipos y como pudo ser su evolución a lo largo de ambas temporadas. 

![image](https://user-images.githubusercontent.com/99599847/162854958-932e027f-525a-4c16-a474-a3598494b461.png)

En consideración de la data disponible y la relación que esta tiene entre sí, se tomó la desición de elaborar un Data Warehouse compuesto de 4 dimensiones y una tabla de hechos:
- Dimensión Liga: Tabla Country / League
- Dimensión Equipo: Tabla Team / Team Attribute
- Dimensión Jugador: : Player Attribute / Player
- Dimensión Fecha: Date Main Match
- Tabla de hechos: Main Match

Esta estructura y diseño es de utilidad para analistas deportivos o amantes del fútbol para tener simientos para realizar estimaciones, predicciones sobre futuros juegos para estar y entrar a casas de apuestas o bien, a nivel comercial , por ejemplo una compañia como Panini tomar acciones de mercadeo en la elaboración de álbumes para agregar datos curiosos, estadísticas o designar estampas especiales según el rendimiento de los equipos y jugadores.

Con la información brindada por el dataset podremos desarrollar un análisis exploratorio, con en el cual podremos determinar y responder preguntas cómo:
- ¿Que equipo tiene mayor porcentaje de victorias como local?
- ¿Que equipo tiene mayor porcentaje de victorias como visitante?
- ¿Cuál es la liga más goleadora?
- ¿Qué es el jugador que más goles ha anotado?
- ¿Qué equipo tiene mayor cuota ganadora en las casas de apuesta cuando es local?


### Detalle de la base de datos
+25.000 partidos
+10,000 jugadores
11 países europeos con su campeonato líder
Temporadas 2008 a 2016
Atributos de jugadores y equipos* extraídos de la serie de videojuegos FIFA de EA Sports, incluidas las actualizaciones semanales
Línea de equipo con formación de escuadrón (coordenadas X, Y)
Cuotas de apuestas de hasta 10 proveedores
Eventos de partidos detallados (tipos de goles, posesión, córner, centros, faltas, tarjetas, etc.) para +10,000 partidos

Todos los datos de la tabla Main Match llamados: 'B365H', 'B365D', 'B365A', 'BWH', 'BWD', 'BWA', 'IWH', 'IWD', 'IWA', 'LBH', 'LBD', 'LBA', 'PSH', 'PSD', 'PSA', 'WHH', 'WHD', 'WHA', 'SJH', 'SJD', 'SJA', 'VCH', 'VCD', 'VCA', 'GBH', 'GBD', 'GBA', 'BSH', 'BSD', 'BSA', corresponden a las cuotas del partido según el equipo ganador sea Local (H), visitante (A) o Empade (D) ; mientras que las primeas letras corresponden a la casa de apuestas B365=Bet365, LB=LadBrokes, WH=William Hill, SJ=Stan James, BW=BWin, entre otros.

In [None]:
### Conexión a RDS

In [2]:
%load_ext sql 

In [3]:
DB_ENDPOINT = 'proyecto-cdp-v3.cacnlwtsjcuo.us-east-1.rds.amazonaws.com'
DB = 'schema_proyectocdp'
DB_USER = 'admin'
DB_PASSWORD = 'proyectocdp123'
DB_PORT = '3306'

In [4]:
mysql_conn = 'mysql+pymysql://{}:{}@{}/{}'.format(DB_USER, DB_PASSWORD, DB_ENDPOINT, DB)
print(mysql_conn)

mysql+pymysql://admin:proyectocdp123@proyecto-cdp-v3.cacnlwtsjcuo.us-east-1.rds.amazonaws.com/schema_proyectocdp


In [5]:
%sql $mysql_conn

'Connected: admin@schema_proyectocdp'

## Lectura de las tablas desde Python

In [6]:
import pandas as pd

sql_query = 'SELECT * FROM main_Country;'
dfCountry = pd.read_sql(sql_query, mysql_conn)

In [7]:
sql_query = 'SELECT * FROM main_League;'
dfLeague = pd.read_sql(sql_query, mysql_conn)

In [8]:
sql_query = 'SELECT * FROM main_Match;'
dfMatch = pd.read_sql(sql_query, mysql_conn)

In [9]:
sql_query = 'SELECT * FROM main_Player;'
dfPlayer = pd.read_sql(sql_query, mysql_conn)

In [10]:
sql_query = 'SELECT * FROM main_Player_Attributes;'
dfPlayerAttribute = pd.read_sql(sql_query, mysql_conn)

In [11]:
sql_query = 'SELECT * FROM main_Team;'
dfTeam = pd.read_sql(sql_query, mysql_conn)

In [12]:
sql_query = 'SELECT * FROM main_Team_Attributes;'
dfTeamAttribute = pd.read_sql(sql_query, mysql_conn)

### Creación de la dimensión Liga

In [13]:
### Importamos Numpy y Pandas
import pandas as pd
import numpy as np

In [14]:
dfCountry_League = dfCountry.merge(dfLeague, left_on='id', right_on='country_id')
dfCountry_League.head()

Unnamed: 0,id,country_name,league_id,country_id,league_name
0,1,Belgium,1,1,Belgium Jupiler League
1,1729,England,1729,1729,England Premier League
2,4769,France,4769,4769,France Ligue 1
3,7809,Germany,7809,7809,Germany 1. Bundesliga
4,10257,Italy,10257,10257,Italy Serie A


In [15]:
dimLeague = dfCountry_League.loc[: , ['id', 'country_name','league_id','league_name']]
dimLeague.head()

Unnamed: 0,id,country_name,league_id,league_name
0,1,Belgium,1,Belgium Jupiler League
1,1729,England,1729,England Premier League
2,4769,France,4769,France Ligue 1
3,7809,Germany,7809,Germany 1. Bundesliga
4,10257,Italy,10257,Italy Serie A


In [None]:
len(dimLeague)

### Creación de la dimensión Equipo

In [None]:
len(dimTeam)

In [16]:
dfTeam_TeamAttri = dfTeam.merge(dfTeamAttribute, left_on='team_api_id', right_on='team_api_id')
dfTeam_TeamAttri.head()

Unnamed: 0,id_team,team_api_id,team_fifa_api_id_x,team_log_name,team_short:_name,id,team_fifa_api_id_y,date,buildUpPlaySpeed,buildUpPlaySpeedClass,...,chanceCreationShooting,chanceCreationShootingClass,chanceCreationPositioningClass,defencePressure,defencePressureClass,defenceAggression,defenceAggressionClass,defenceTeamWidth,defenceTeamWidthClass,defenceDefenderLineClass
0,1,9987,673,KRC Genk,GEN,485,673,2010-02-22 00:00:00,45,Balanced,...,60,Normal,Organised,70,High,65,Press,70,Wide,Cover
1,1,9987,673,KRC Genk,GEN,486,673,2011-02-22 00:00:00,66,Balanced,...,51,Normal,Organised,48,Medium,47,Press,54,Normal,Offside Trap
2,1,9987,673,KRC Genk,GEN,487,673,2012-02-22 00:00:00,53,Balanced,...,56,Normal,Organised,47,Medium,45,Press,55,Normal,Cover
3,1,9987,673,KRC Genk,GEN,488,673,2013-09-20 00:00:00,58,Balanced,...,56,Normal,Organised,47,Medium,45,Press,55,Normal,Cover
4,1,9987,673,KRC Genk,GEN,489,673,2014-09-19 00:00:00,58,Balanced,...,56,Normal,Organised,47,Medium,45,Press,55,Normal,Cover


In [17]:
dimTeam = dfTeam_TeamAttri.loc[: , ['id',
'team_api_id',
'team_fifa_api_id_x',
'team_log_name',
]]
dimTeam.head()

Unnamed: 0,id,team_api_id,team_fifa_api_id_x,team_log_name
0,485,9987,673,KRC Genk
1,486,9987,673,KRC Genk
2,487,9987,673,KRC Genk
3,488,9987,673,KRC Genk
4,489,9987,673,KRC Genk


In [18]:
sql_query = 'SELECT * FROM main_Team;'
dfTeam = pd.read_sql(sql_query, mysql_conn)
dfTeam.head()

Unnamed: 0,id_team,team_api_id,team_fifa_api_id,team_log_name,team_short:_name
0,1,9987,673,KRC Genk,GEN
1,2,9993,675,Beerschot AC,BAC
2,3,10000,15005,SV Zulte-Waregem,ZUL
3,4,9994,2007,Sporting Lokeren,LOK
4,5,9984,1750,KSV Cercle Brugge,CEB


### Creación de la dimensión Fecha

In [39]:
sql_query = 'SELECT date FROM main_Match;'
dfDate = pd.read_sql(sql_query, mysql_conn)
dfDate['date'] = dfDate['date'].dt.date 
dfDate.head()

Unnamed: 0,date
0,2008-08-17
1,2008-08-16
2,2008-08-16
3,2008-08-17
4,2008-08-16


In [None]:
dfDate['year'] = pd.DatetimeIndex(dfDate['date']).year
dfDate['month'] = pd.DatetimeIndex(dfDate['date']).month
dfDate['quarter'] = pd.DatetimeIndex(dfDate['date']).quarter
dfDate['day'] = pd.DatetimeIndex(dfDate['date']).day
dfDate['week'] = pd.DatetimeIndex(dfDate['date']).week
dfDate['date'] = pd.to_datetime(dfDate.date, format='%Y-%m-%d')
dfDate['date_key'] = dfDate['date'].dt.strftime('%Y%M%d') #Se define date_key para ser la llave foranea en la fact table
dfDate.head()

In [44]:
dimDate = dfDate.loc[:, ['date_key'
                         , 'date'
                         , 'year'
                         , 'month'
                         , 'day']]
dimDate.head()

Unnamed: 0,date_key,date,year,month,day
0,20080017,2008-08-17,2008,8,17
1,20080016,2008-08-16,2008,8,16
2,20080016,2008-08-16,2008,8,16
3,20080017,2008-08-17,2008,8,17
4,20080016,2008-08-16,2008,8,16


 ### Creación de la dimensión Player


In [20]:
dfPlayer_PlayerAttri = dfPlayer.merge(dfPlayerAttribute, left_on='player_api_id', right_on='player_api_id')
dfPlayer_PlayerAttri.head()

Unnamed: 0,player_id,player_api_id,player_name,player_fifa_api_id_x,birthday,height,weight,id,player_fifa_api_id_y,date,...,vision,penalties,marking,standing_tackle,sliding_tackle,gk_diving,gk_handling,gk_kicking,gk_positioning,gk_reflexes
0,1,505942,Aaron Appindangoye,218353,1992-02-29 00:00:00,182.88,187,1,218353,2016-02-18 00:00:00,...,54.0,48.0,65.0,69.0,69.0,6.0,11.0,10.0,8.0,8.0
1,1,505942,Aaron Appindangoye,218353,1992-02-29 00:00:00,182.88,187,2,218353,2015-11-19 00:00:00,...,54.0,48.0,65.0,69.0,69.0,6.0,11.0,10.0,8.0,8.0
2,1,505942,Aaron Appindangoye,218353,1992-02-29 00:00:00,182.88,187,3,218353,2015-09-21 00:00:00,...,54.0,48.0,65.0,66.0,69.0,6.0,11.0,10.0,8.0,8.0
3,1,505942,Aaron Appindangoye,218353,1992-02-29 00:00:00,182.88,187,4,218353,2015-03-20 00:00:00,...,53.0,47.0,62.0,63.0,66.0,5.0,10.0,9.0,7.0,7.0
4,1,505942,Aaron Appindangoye,218353,1992-02-29 00:00:00,182.88,187,5,218353,2007-02-22 00:00:00,...,53.0,47.0,62.0,63.0,66.0,5.0,10.0,9.0,7.0,7.0


In [21]:
dimPlayer = dfPlayer_PlayerAttri.loc[: , ['id',
'player_api_id',
'player_name',
'player_fifa_api_id_x',
'birthday',
'height',
'weight',
]]
dimPlayer.head()

Unnamed: 0,id,player_api_id,player_name,player_fifa_api_id_x,birthday,height,weight
0,1,505942,Aaron Appindangoye,218353,1992-02-29 00:00:00,182.88,187
1,2,505942,Aaron Appindangoye,218353,1992-02-29 00:00:00,182.88,187
2,3,505942,Aaron Appindangoye,218353,1992-02-29 00:00:00,182.88,187
3,4,505942,Aaron Appindangoye,218353,1992-02-29 00:00:00,182.88,187
4,5,505942,Aaron Appindangoye,218353,1992-02-29 00:00:00,182.88,187


### Creación de la Fact Table - Main Match

In [22]:
dfLeague_Match = dfMatch.merge(dimLeague, left_on='league_id', right_on='id')
dfLeague_Match.head()

Unnamed: 0,id_x,country_id,league_id_x,season,stage,date,match_api_id,home_team_api_id,away_team_api_id,home_team_goal,...,GBH,GBD,GBA,BSH,BSD,BSA,id_y,country_name,league_id_y,league_name
0,1,1,1,2008/2009,1,2008-08-17,492473,9987,9993,1,...,1.78,3.25,4.0,1.73,3.4,4.2,1,Belgium,1,Belgium Jupiler League
1,2,1,1,2008/2009,1,2008-08-16,492474,10000,9994,0,...,1.85,3.25,3.75,1.91,3.25,3.6,1,Belgium,1,Belgium Jupiler League
2,3,1,1,2008/2009,1,2008-08-16,492475,9984,8635,0,...,2.5,3.2,2.5,2.3,3.2,2.75,1,Belgium,1,Belgium Jupiler League
3,4,1,1,2008/2009,1,2008-08-17,492476,9991,9998,5,...,1.5,3.75,5.5,1.44,3.75,6.5,1,Belgium,1,Belgium Jupiler League
4,5,1,1,2008/2009,1,2008-08-16,492477,7947,9985,1,...,4.5,3.5,1.65,4.75,3.3,1.67,1,Belgium,1,Belgium Jupiler League


In [None]:
len(dfLeague_Match)

In [None]:
dfMatch.head()

In [None]:
dfLeague_Match.info()

In [23]:
dfTeam_Match = dfLeague_Match.merge(dimTeam, left_on=['home_team_api_id'], right_on=['team_api_id'])

In [None]:
dfTeam_Match.info()

In [None]:
dfTeam_Match_a = dfTeam_Match.merge(dimTeam, left_on=['away_team_api_id'], right_on=['team_api_id'])

In [None]:
len(dfTeam_Match_a)

In [None]:
dfPlayer_Match_b = dimPlayer.merge(dfTeam_Match_a, left_on=['id'] , right_on=['away_player_X1'
])
dfPlayer_Match_c = dimPlayer.merge(dfPlayer_Match_b, left_on=['id'] , right_on=['away_player_X2'
])
dfPlayer_Match_d = dimPlayer.merge(dfPlayer_Match_c, left_on=['id'] , right_on=['away_player_X3'
])
dfPlayer_Match_e = dimPlayer.merge(dfPlayer_Match_d, left_on=['id'] , right_on=['away_player_X4'
])
dfPlayer_Match_f = dimPlayer.merge(dfPlayer_Match_e, left_on=['id'] , right_on=['away_player_X5'
])
dfPlayer_Match_g = dimPlayer.merge(dfPlayer_Match_f, left_on=['id'] , right_on=['away_player_X6'
])
dfPlayer_Match_h = dimPlayer.merge(dfPlayer_Match_g, left_on=['id'] , right_on=['away_player_X7'
])
dfPlayer_Match_i = dimPlayer.merge(dfPlayer_Match_h, left_on=['id'] , right_on=['away_player_X8'
])
dfPlayer_Match_j = dimPlayer.merge(dfPlayer_Match_i, left_on=['id'] , right_on=['away_player_X9'
])
dfPlayer_Match_k = dimPlayer.merge(dfPlayer_Match_j, left_on=['id'] , right_on=['away_player_X10'
])
dfPlayer_Match_l = dimPlayer.merge(dfPlayer_Match_k, left_on=['id'] , right_on=['away_player_X11'
])

In [None]:
len(dfPlayer_Match_l)

In [26]:
FactMatch = dfPlayer_Match_l.loc[: , ['id',
'player_api_id',
'player_fifa_api_id_x',                                
'team_api_id_x',
'league_id_x', 
'country_id',
'season',
'stage',
'date',
'home_team_api_id',
'away_team_api_id',
'home_team_goal',
'away_team_goal',
'home_player_X1',
'home_player_X2',
'home_player_X3',
'home_player_X4',
'home_player_X5',
'home_player_X6',
'home_player_X7',
'home_player_X8',
'home_player_X9',
'home_player_X10',
'home_player_X11',
'away_player_X1',
'away_player_X2',
'away_player_X3',
'away_player_X4',
'away_player_X5',
'away_player_X6',
'away_player_X7',
'away_player_X8',
'away_player_X9',
'away_player_X10',
'away_player_X11',
'home_player_Y1',
'home_player_Y2',
'home_player_Y3',
'home_player_Y4',
'home_player_Y5',
'home_player_Y6',
'home_player_Y7',
'home_player_Y8',
'home_player_Y9',
'home_player_Y10',
'home_player_Y11',
'away_player_Y1',
'away_player_Y2',
'away_player_Y3',
'away_player_Y4',
'away_player_Y5',
'away_player_Y6',
'away_player_Y7',
'away_player_Y8',
'away_player_Y9',
'away_player_Y10',
'away_player_Y11',
'goal',
'shoton',
'shotoff',
'foulcommit',
'card',
'cross',
'corner',
'possession',
'B365H',
'B365D',
'B365A',
'BWH',
'BWD',
'BWA',
'IWH',
'IWD',
'IWA',
'LBH',
'LBD',
'LBA',
'PSH',
'PSD',
'PSA',
'WHH',
'WHD',
'WHA',
'SJH',
'SJD',
'SJA',
'VCH',
'VCD',
'VCA',
'GBH',
'GBD',
'GBA',
'BSH',
'BSD',
'BSA',                                  
]]

FactMatch.head()

Unnamed: 0,id,player_api_id,player_fifa_api_id_x,team_api_id_x,league_id_x,country_id,season,stage,date,home_team_api_id,...,SJA,VCH,VCD,VCA,GBH,GBD,GBA,BSH,BSD,BSA
0,3,505942,218353,10238,17642,17642,2014/2015,20,2015-02-08,10238,...,,2.1,3.25,3.9,,,,,,
1,3,505942,218353,10238,17642,17642,2014/2015,20,2015-02-08,10238,...,,2.1,3.25,3.9,,,,,,
2,3,505942,218353,10238,17642,17642,2014/2015,20,2015-02-08,10238,...,,2.1,3.25,3.9,,,,,,
3,3,505942,218353,10238,17642,17642,2014/2015,20,2015-02-08,10238,...,,2.1,3.25,3.9,,,,,,
4,3,505942,218353,10238,17642,17642,2014/2015,20,2015-02-08,10238,...,,2.1,3.25,3.9,,,,,,


In [None]:
FactMatch.info()

### Importar a Redshift

In [27]:
import os
import configparser

In [28]:
config = configparser.ConfigParser()
config.read_file(open('dwh.cfg'))

In [29]:
ENDPOINT = config.get('REDSHIFT', 'HOST')
DB_USER = config.get('REDSHIFT', 'DB_USER')
DB_PASSWORD = config.get('REDSHIFT', 'DB_PASSWORD')
DB_PORT = config.get('REDSHIFT', 'DB_PORT')
DB_NAME = config.get('REDSHIFT', 'DB_NAME')

In [30]:
redshift_conn_string = "postgresql://{}:{}@{}:{}/{}".format(DB_USER, DB_PASSWORD, ENDPOINT, DB_PORT, DB_NAME)
print(redshift_conn_string)

postgresql://awsuser:Proyectocdp123@dw-proyecto-cdp-cluster.ceanr1gbwjit.us-east-1.redshift.amazonaws.com:5439/dev


In [31]:
%sql $redshift_conn_string

'Connected: awsuser@dev'

In [32]:
from sqlalchemy import create_engine

In [33]:
conn = create_engine(redshift_conn_string)

In [29]:
dimLeague.to_sql('dimleague', conn, index=False, if_exists='append')

In [None]:
dimTeam.to_sql('dimteam', conn, index=False, if_exists='append', method='multi')

In [None]:
dimDate.to_sql('dimdate', conn, index=False, if_exists='append', method='multi')

In [25]:
dimPlayer.to_sql('dimplayer', conn, index=False, if_exists='append', method='multi')

In [None]:
FactMatch.to_sql('factmatch', conn, index=False, if_exists='append', method='multi')