Módulo 03 Lección 2 - 02 Ejercicios de aplicación

# La Librería Pandas

1. **Desafío** 🎯
   Este desafío consiste en la manipulación, análisis y transformación de datos utilizando Pandas. Trabajarás con un conjunto de datos estructurado y aplicarás diversas operaciones para limpiarlo, organizarlo y extraer información clave.
    - Carga y exploración de datos:
        - Importa el conjunto de datos desde un archivo CSV(LigaEspanola2023-2024-Resultados.csv)).
        - Muestra las primeras y últimas 5 filas.
        - Obtén información general del DataFrame, incluyendo tipos de datos y valores nulos.
        - Calcula estadísticas descriptivas generales.
    - Manejo de valores nulos y duplicados:
        - Identifica y cuenta los valores nulos en el conjunto de datos.
        - Imputa los valores faltantes en columnas numéricas con la media y en columnas categóricas con la moda.
        - Elimina las fi las duplicadas, si existen.
    - Filtrado y selección de datos:
        - Filtra los datos según una condición específica (ejemplo: valores mayores a un umbral en una columna numérica).
        - Selecciona solo columnas relevantes para el análisis.
        - Ordena los datos en función de una o más columnas.
    - Agrupamiento y operaciones estadísticas:
        - Agrupa los datos en función de una variable categórica y calcula estadísticas agregadas.
        - Obtén el promedio de una variable por cada grupo.
        - Aplica funciones de agregación personalizadas.
    - Creación de nuevas columnas y transformación de datos:
        - Crea una nueva columna a partir de cálculos basados en otras columnas.
        - Convierte el tipo de datos de una columna si es necesario.
        - Renombra columnas para mejorar la legibilidad del DataFrame.
2. **Recursos** 🛠️
    Documentación de Pandas: https://pandas.pydata.org/docs/
3. **Plus** ➕
    - Experimenta exportando los datos a otros formatos como Excel o JSON.
    - Intenta automatizar algunos pasos con funciones personalizadas.
4. **Condición** ⚠️
    Esta práctica o ejercitación no requiere ser entregada y/o evaluada por el mentor. No obstante puedes compartir tus resultados con el resto de los bootcampers y construir conocimiento en conjunto.

<br>

### Carga y exploración de datos

**Importa el conjunto de datos**

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("liga_espanola_2023_2024_resultados.csv", sep=";")

**Muestra las primeras 5 filas**

In [3]:
df.head()

Unnamed: 0,Ronda,Fecha,Local,Vistante,Goles Local,Goles Visitante,Total Goles,Resultado
0,33,2024-04-29 00:00:00,Barcelona,Valencia,4,2,6,Home
1,33,2024-04-28 00:00:00,Betis,Sevilla,1,1,2,Tie
2,33,2024-04-28 00:00:00,Villarreal,Rayo Vallecano,3,0,3,Home
3,33,2024-04-28 00:00:00,Granada CF,Osasuna,3,0,3,Home
4,33,2024-04-28 00:00:00,Cadiz CF,Mallorca,1,1,2,Tie


**Muestra las últimas 5 filas**

In [4]:
df.tail(5)

Unnamed: 0,Ronda,Fecha,Local,Vistante,Goles Local,Goles Visitante,Total Goles,Resultado
325,1,2023-08-12 00:00:00,Ath Bilbao,Real Madrid,0,2,2,Away
326,1,2023-08-12 00:00:00,Las Palmas,Mallorca,1,1,2,Tie
327,1,2023-08-12 00:00:00,Real Sociedad,Girona,1,1,2,Tie
328,1,2023-08-11 00:00:00,Sevilla,Valencia,1,2,3,Away
329,1,2023-08-11 00:00:00,Almeria,Rayo Vallecano,0,2,2,Away


**información general del DataFrame**

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 330 entries, 0 to 329
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Ronda            330 non-null    int64 
 1   Fecha            330 non-null    object
 2   Local            330 non-null    object
 3   Vistante         330 non-null    object
 4   Goles Local      330 non-null    int64 
 5   Goles Visitante  330 non-null    int64 
 6   Total Goles      330 non-null    int64 
 7   Resultado        330 non-null    object
dtypes: int64(4), object(4)
memory usage: 20.8+ KB


**estadísticas descriptivas generales**

In [6]:
df.describe()

Unnamed: 0,Ronda,Goles Local,Goles Visitante,Total Goles
count,330.0,330.0,330.0,330.0
mean,17.0,1.475758,1.142424,2.618182
std,9.536365,1.257568,1.119469,1.757218
min,1.0,0.0,0.0,0.0
25%,9.0,1.0,0.0,1.0
50%,17.0,1.0,1.0,2.0
75%,25.0,2.0,2.0,4.0
max,33.0,5.0,7.0,8.0


<br>

### Manejo de valores nulos y duplicados

**Identificación y conteo de valores nulos**

In [7]:
df.isnull().sum()

Ronda              0
Fecha              0
Local              0
Vistante           0
Goles Local        0
Goles Visitante    0
Total Goles        0
Resultado          0
dtype: int64

**Identificación y conteo de valores NA**

In [8]:
df.isna().sum()

Ronda              0
Fecha              0
Local              0
Vistante           0
Goles Local        0
Goles Visitante    0
Total Goles        0
Resultado          0
dtype: int64

**Imputa los valores faltantes en columnas numéricas con la media y en columnas categóricas con la moda**

In [9]:
df.fillna({"Ronda":df["Ronda"].mean(),
           "Goles Local":df["Goles Local"].mean(),
           "Goles Visitante":df["Goles Visitante"].mean(),
           "Total Goles":df["Total Goles"].mean(),
           "Fecha":df["Fecha"].mode()[0],
           "Local":df["Local"].mode()[0],
           "Vistante":df["Vistante"].mode()[0],
           "Resultado":df["Resultado"].mode()[0],
          },
          inplace=True)          

**Identificación y conteo de registros duplicados**

In [10]:
df.duplicated().sum()

np.int64(0)

In [11]:
# ver duplicados
df[df.duplicated()]

Unnamed: 0,Ronda,Fecha,Local,Vistante,Goles Local,Goles Visitante,Total Goles,Resultado


In [12]:
# Eliminar registros duplicados
df.drop_duplicates(inplace=True)

<br>

### Filtrado y selección de datos

**Filtra valores mayores a un umbral en una columna numérica**

In [13]:
df[df["Goles Visitante"] > 5]

Unnamed: 0,Ronda,Fecha,Local,Vistante,Goles Local,Goles Visitante,Total Goles,Resultado
300,3,2023-08-28 00:00:00,Rayo Vallecano,Atl. Madrid,0,7,7,Away


**Selección de columnas relevantes para el análisis**

In [14]:
etiquetas = df.columns.to_list()
etiquetas.remove("Ronda")

In [15]:
df[etiquetas]

Unnamed: 0,Fecha,Local,Vistante,Goles Local,Goles Visitante,Total Goles,Resultado
0,2024-04-29 00:00:00,Barcelona,Valencia,4,2,6,Home
1,2024-04-28 00:00:00,Betis,Sevilla,1,1,2,Tie
2,2024-04-28 00:00:00,Villarreal,Rayo Vallecano,3,0,3,Home
3,2024-04-28 00:00:00,Granada CF,Osasuna,3,0,3,Home
4,2024-04-28 00:00:00,Cadiz CF,Mallorca,1,1,2,Tie
...,...,...,...,...,...,...,...
325,2023-08-12 00:00:00,Ath Bilbao,Real Madrid,0,2,2,Away
326,2023-08-12 00:00:00,Las Palmas,Mallorca,1,1,2,Tie
327,2023-08-12 00:00:00,Real Sociedad,Girona,1,1,2,Tie
328,2023-08-11 00:00:00,Sevilla,Valencia,1,2,3,Away


In [16]:
# Datos ordenados en función del Total Goles
df.sort_values(by="Total Goles", ascending=False).head()

Unnamed: 0,Ronda,Fecha,Local,Vistante,Goles Local,Goles Visitante,Total Goles,Resultado
119,22,2024-01-27 00:00:00,Barcelona,Villarreal,3,5,8,Away
297,4,2023-09-02 00:00:00,Real Sociedad,Granada CF,5,3,8,Home
279,6,2023-09-23 00:00:00,Girona,Mallorca,5,3,8,Home
300,3,2023-08-28 00:00:00,Rayo Vallecano,Atl. Madrid,0,7,7,Away
143,19,2024-01-03 00:00:00,Girona,Atl. Madrid,4,3,7,Home


### Agrupamiento y operaciones estadísticas

**Agrupa los datos en función de Goles Local y calcula estadísticas agregadas**

In [17]:
df.groupby("Goles Local").describe()

Unnamed: 0_level_0,Ronda,Ronda,Ronda,Ronda,Ronda,Ronda,Ronda,Ronda,Goles Visitante,Goles Visitante,Goles Visitante,Goles Visitante,Goles Visitante,Total Goles,Total Goles,Total Goles,Total Goles,Total Goles,Total Goles,Total Goles,Total Goles
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
Goles Local,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
0,78.0,17.076923,9.802954,1.0,8.0,18.0,24.0,33.0,78.0,1.179487,...,2.0,7.0,78.0,1.179487,1.235236,0.0,0.0,1.0,2.0,7.0
1,116.0,16.741379,9.346583,1.0,10.0,16.0,25.0,33.0,116.0,0.905172,...,1.0,4.0,116.0,1.905172,0.88444,1.0,1.0,2.0,2.0,5.0
2,70.0,17.4,9.091165,2.0,10.0,15.5,26.75,32.0,70.0,1.285714,...,2.0,4.0,70.0,3.285714,1.205577,2.0,2.0,3.0,4.0,6.0
3,42.0,17.095238,10.299916,1.0,8.0,18.0,25.75,33.0,42.0,1.404762,...,2.0,5.0,42.0,4.404762,1.210916,3.0,3.0,4.0,5.0,8.0
4,15.0,18.8,10.604581,2.0,11.0,19.0,27.0,33.0,15.0,1.266667,...,2.5,3.0,15.0,5.266667,1.279881,4.0,4.0,5.0,6.5,7.0
5,9.0,13.111111,8.964436,4.0,6.0,10.0,21.0,27.0,9.0,1.333333,...,2.0,3.0,9.0,6.333333,1.118034,5.0,6.0,6.0,7.0,8.0


**Aplicación y agregaciones personalizadas**

In [18]:
df.groupby("Goles Local").agg({"Total Goles":["mean"]})

Unnamed: 0_level_0,Total Goles
Unnamed: 0_level_1,mean
Goles Local,Unnamed: 1_level_2
0,1.179487
1,1.905172
2,3.285714
3,4.404762
4,5.266667
5,6.333333


### Creación de nuevas columnas y transformación de datos

**Crea etiqueta Goles Visitante**

In [19]:
df["Goles Diferencia"] = df["Goles Local"] - df["Goles Visitante"]
df.head()

Unnamed: 0,Ronda,Fecha,Local,Vistante,Goles Local,Goles Visitante,Total Goles,Resultado,Goles Diferencia
0,33,2024-04-29 00:00:00,Barcelona,Valencia,4,2,6,Home,2
1,33,2024-04-28 00:00:00,Betis,Sevilla,1,1,2,Tie,0
2,33,2024-04-28 00:00:00,Villarreal,Rayo Vallecano,3,0,3,Home,3
3,33,2024-04-28 00:00:00,Granada CF,Osasuna,3,0,3,Home,3
4,33,2024-04-28 00:00:00,Cadiz CF,Mallorca,1,1,2,Tie,0


In [20]:
# Ordena Etiquetas 
# Obtener todas las columnas
cols = df.columns.tolist()
# Encontrar la posición de 'Resultado'
idx = cols.index("Resultado")

In [21]:
# Insertar 'Goles Diferencia' justo antes
cols.insert(idx, cols.pop(cols.index("Goles Diferencia")))
# Reordenar el DataFrame
df = df[cols]
df.head()

Unnamed: 0,Ronda,Fecha,Local,Vistante,Goles Local,Goles Visitante,Total Goles,Goles Diferencia,Resultado
0,33,2024-04-29 00:00:00,Barcelona,Valencia,4,2,6,2,Home
1,33,2024-04-28 00:00:00,Betis,Sevilla,1,1,2,0,Tie
2,33,2024-04-28 00:00:00,Villarreal,Rayo Vallecano,3,0,3,3,Home
3,33,2024-04-28 00:00:00,Granada CF,Osasuna,3,0,3,3,Home
4,33,2024-04-28 00:00:00,Cadiz CF,Mallorca,1,1,2,0,Tie


<br>

**Convierte el tipo de datos de una columna**

In [22]:
# Divide y convierte la fecha
df["Fecha"] = pd.to_datetime(df["Fecha"])
df["Año"] = df["Fecha"].dt.year
df["Mes"] = df["Fecha"].dt.month
df["Día"] = df["Fecha"].dt.day
df.head()

Unnamed: 0,Ronda,Fecha,Local,Vistante,Goles Local,Goles Visitante,Total Goles,Goles Diferencia,Resultado,Año,Mes,Día
0,33,2024-04-29,Barcelona,Valencia,4,2,6,2,Home,2024,4,29
1,33,2024-04-28,Betis,Sevilla,1,1,2,0,Tie,2024,4,28
2,33,2024-04-28,Villarreal,Rayo Vallecano,3,0,3,3,Home,2024,4,28
3,33,2024-04-28,Granada CF,Osasuna,3,0,3,3,Home,2024,4,28
4,33,2024-04-28,Cadiz CF,Mallorca,1,1,2,0,Tie,2024,4,28


In [23]:
# ordena etiquetas DataFrame
cols = df.columns.tolist()

In [24]:
cols.insert(2, cols.pop(cols.index("Año")))
cols.insert(3, cols.pop(cols.index("Mes")))
cols.insert(4, cols.pop(cols.index("Día")))
df = df[cols]
df.head()

Unnamed: 0,Ronda,Fecha,Año,Mes,Día,Local,Vistante,Goles Local,Goles Visitante,Total Goles,Goles Diferencia,Resultado
0,33,2024-04-29,2024,4,29,Barcelona,Valencia,4,2,6,2,Home
1,33,2024-04-28,2024,4,28,Betis,Sevilla,1,1,2,0,Tie
2,33,2024-04-28,2024,4,28,Villarreal,Rayo Vallecano,3,0,3,3,Home
3,33,2024-04-28,2024,4,28,Granada CF,Osasuna,3,0,3,3,Home
4,33,2024-04-28,2024,4,28,Cadiz CF,Mallorca,1,1,2,0,Tie


**Renombra columnas para mejorar la legibilidad del DataFrame**

In [25]:
df.rename(columns={"Vistante": "Visitante"}, inplace=True)
df.head()

Unnamed: 0,Ronda,Fecha,Año,Mes,Día,Local,Visitante,Goles Local,Goles Visitante,Total Goles,Goles Diferencia,Resultado
0,33,2024-04-29,2024,4,29,Barcelona,Valencia,4,2,6,2,Home
1,33,2024-04-28,2024,4,28,Betis,Sevilla,1,1,2,0,Tie
2,33,2024-04-28,2024,4,28,Villarreal,Rayo Vallecano,3,0,3,3,Home
3,33,2024-04-28,2024,4,28,Granada CF,Osasuna,3,0,3,3,Home
4,33,2024-04-28,2024,4,28,Cadiz CF,Mallorca,1,1,2,0,Tie


### Plus

**Exporta a JSON**

In [35]:
df.to_json("la_liga_resultados.json", orient="records", indent=2, force_ascii=False)

**Exporta EXCEL**

In [33]:
with pd.ExcelWriter("la_liga_analisis.xlsx") as writer:
    df.to_excel(writer, sheet_name="Datos", index=False)
    df.describe().to_excel(writer, sheet_name="Estadísticas")