## Curso de Fundamentos de Machine Learning 

### Predicción de datos de un club de Fútbol 

In [3]:
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

In [4]:
# Cargar el archivo CSV
df = pd.read_csv('data.csv')

# Mostrar las primeras filas del DataFrame
df.head(9)  

Unnamed: 0,fecha_partido,equipo_local,equipo_visitante,goles_local,goles_visitante,posesion_local (%),posesion_visitante (%),tiros_arco_local,tiros_arco_visitante,estadio
0,2023-01-01,Atlético Python,Cebollitas FC,2,0,54,46,12,6,Python Arena
1,2023-01-08,NumPy City,Atlético Python,1,5,60,40,12,3,Estadio ML
2,2023-01-15,Cebollitas FC,Data United,1,0,55,45,10,7,Python Arena
3,2023-01-22,Atlético Python,Data United,2,3,57,43,3,3,Campo Pandas
4,2023-01-29,Data United,Cebollitas FC,5,3,52,48,7,12,Estadio ML
5,2023-02-05,Data United,Cebollitas FC,3,3,60,40,8,11,Python Arena
6,2023-02-12,Data United,Real Pandas,4,1,49,51,4,8,Estadio ML
7,2023-02-19,Cebollitas FC,Real Pandas,1,2,56,44,5,5,Estadio ML
8,2023-02-26,NumPy City,Data United,1,5,60,40,9,9,Estadio DataCamp


In [3]:
# Información del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   fecha_partido           100 non-null    object
 1   equipo_local            100 non-null    object
 2   equipo_visitante        100 non-null    object
 3   goles_local             100 non-null    int64 
 4   goles_visitante         100 non-null    int64 
 5   posesion_local (%)      100 non-null    int64 
 6   posesion_visitante (%)  100 non-null    int64 
 7   tiros_arco_local        100 non-null    int64 
 8   tiros_arco_visitante    100 non-null    int64 
 9   estadio                 100 non-null    object
dtypes: int64(6), object(4)
memory usage: 7.9+ KB


In [None]:
# Encontrar y manejar valores nulos
df.isnull().sum() 
df['goles_local'] = df['goles_local'].fillna(df['goles_local'].mean())
print("Valores nulos antes de la imputación:")
print(df.isnull().sum())

Valores nulos antes de la imputación:
fecha_partido             0
equipo_local              0
equipo_visitante          0
goles_local               0
goles_visitante           0
posesion_local (%)        0
posesion_visitante (%)    0
tiros_arco_local          0
tiros_arco_visitante      0
estadio                   0
dtype: int64


In [5]:
# One hot encoding para equipos
df = pd.get_dummies(df, columns=['equipo_local', 'equipo_visitante'])
df.head()  

Unnamed: 0,fecha_partido,goles_local,goles_visitante,posesion_local (%),posesion_visitante (%),tiros_arco_local,tiros_arco_visitante,estadio,equipo_local_Atlético Python,equipo_local_Cebollitas FC,equipo_local_Data United,equipo_local_NumPy City,equipo_local_Real Pandas,equipo_visitante_Atlético Python,equipo_visitante_Cebollitas FC,equipo_visitante_Data United,equipo_visitante_NumPy City,equipo_visitante_Real Pandas
0,2023-01-01,2,0,54,46,12,6,Python Arena,True,False,False,False,False,False,True,False,False,False
1,2023-01-08,1,5,60,40,12,3,Estadio ML,False,False,False,True,False,True,False,False,False,False
2,2023-01-15,1,0,55,45,10,7,Python Arena,False,True,False,False,False,False,False,True,False,False
3,2023-01-22,2,3,57,43,3,3,Campo Pandas,True,False,False,False,False,False,False,True,False,False
4,2023-01-29,5,3,52,48,7,12,Estadio ML,False,False,True,False,False,False,True,False,False,False


In [None]:
# Eliminar filas duplicadas
df.drop_duplicates(inplace=True)
print("Filas antes de eliminar duplicados:", len(df))

df.drop_duplicates(inplace=True)
print("Filas después de eliminar duplicados:", len(df))

Filas antes de eliminar duplicados: 100
Filas después de eliminar duplicados: 100


In [7]:
# Manejar fechas 
df['fecha_partido'] = pd.to_datetime(df['fecha_partido'], errors='coerce')

print("Fechas inválidas (NaT) luego de la conversión:")
print(df['fecha_partido'].isnull().sum())

Fechas inválidas (NaT) luego de la conversión:
0


In [8]:
# Datos preparados
print("Datos preparados para el análisis:")
print(df.info())

Datos preparados para el análisis:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 18 columns):
 #   Column                            Non-Null Count  Dtype         
---  ------                            --------------  -----         
 0   fecha_partido                     100 non-null    datetime64[ns]
 1   goles_local                       100 non-null    int64         
 2   goles_visitante                   100 non-null    int64         
 3   posesion_local (%)                100 non-null    int64         
 4   posesion_visitante (%)            100 non-null    int64         
 5   tiros_arco_local                  100 non-null    int64         
 6   tiros_arco_visitante              100 non-null    int64         
 7   estadio                           100 non-null    object        
 8   equipo_local_Atlético Python      100 non-null    bool          
 9   equipo_local_Cebollitas FC        100 non-null    bool          
 10  equipo_local_Dat

In [10]:
# Columnas con nulos tras limpieza
print("Columnas con nulos tras limpieza:")
print(df.isnull().sum())

Columnas con nulos tras limpieza:
fecha_partido                       0
goles_local                         0
goles_visitante                     0
posesion_local (%)                  0
posesion_visitante (%)              0
tiros_arco_local                    0
tiros_arco_visitante                0
estadio                             0
equipo_local_Atlético Python        0
equipo_local_Cebollitas FC          0
equipo_local_Data United            0
equipo_local_NumPy City             0
equipo_local_Real Pandas            0
equipo_visitante_Atlético Python    0
equipo_visitante_Cebollitas FC      0
equipo_visitante_Data United        0
equipo_visitante_NumPy City         0
equipo_visitante_Real Pandas        0
dtype: int64


In [12]:
# Dataset limpio y listo para análisis
print("Vista final del DataFrame:")
display(df.head())

Vista final del DataFrame:


Unnamed: 0,fecha_partido,goles_local,goles_visitante,posesion_local (%),posesion_visitante (%),tiros_arco_local,tiros_arco_visitante,estadio,equipo_local_Atlético Python,equipo_local_Cebollitas FC,equipo_local_Data United,equipo_local_NumPy City,equipo_local_Real Pandas,equipo_visitante_Atlético Python,equipo_visitante_Cebollitas FC,equipo_visitante_Data United,equipo_visitante_NumPy City,equipo_visitante_Real Pandas
0,2023-01-01,2,0,54,46,12,6,Python Arena,True,False,False,False,False,False,True,False,False,False
1,2023-01-08,1,5,60,40,12,3,Estadio ML,False,False,False,True,False,True,False,False,False,False
2,2023-01-15,1,0,55,45,10,7,Python Arena,False,True,False,False,False,False,False,True,False,False
3,2023-01-22,2,3,57,43,3,3,Campo Pandas,True,False,False,False,False,False,False,True,False,False
4,2023-01-29,5,3,52,48,7,12,Estadio ML,False,False,True,False,False,False,True,False,False,False


In [None]:
# Shape final del DataFrame
print("Shape final del DataFrame:", df.shape)   

Shape final del DataFrame: (100, 18)
