<a href="https://colab.research.google.com/github/Javorai/Coding-Dojo-Core/blob/main/Pandas_para_Ciencia_de_Datos_II_Analisis_con_Pandas_(Core).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Analisis con Pandas y Kaggle (Core)**
El objetivo de esta actividad es poner en práctica todos los conocimientos adquiridos sobre Pandas a través del análisis completo de un dataset. Los estudiantes deben aplicar técnicas de carga, exploración, limpieza, transformación, y agregación de datos para extraer insights valiosos. La actividad no incluye visualización de datos, enfocándose únicamente en el análisis y manipulación de datos con Pandas.

**Instrucciones**

1.  **Preparación del Entorno**
* Asegúrate de tener instalado Pandas en tu entorno de trabajo.
* Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.
2.  **Cargar los Datos**
* Carga el archivo CSV en un DataFrame de Pandas.
* Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.
3.  **Exploración Inicial de los Datos**
* Muestra las últimas 5 filas del DataFrame.
* Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
* Genera estadísticas descriptivas del DataFrame utilizando el método describe().
4.  **Limpieza de Datos**
* Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
* Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
* Elimina duplicados si los hay.
5.  **Transformación de Datos**
* Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
* Normaliza o estandariza columnas si es necesario.
* Clasifica los datos en categorías relevantes.
6.  **Análisis de Datos**
* Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
* Aplica funciones de agregación como sum, mean, count, min, max, std, y var.
* Utiliza el método apply para realizar operaciones más complejas y personalizadas.
7.  **Documentación**
* Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
* Asegúrate de que el código sea legible y esté bien comentado.

# **About Dataset**
**Dataset Overview**

This dataset contains detailed statistics from the League of Legends Worlds 2024 - Swiss Stage, providing insights into champion performance, pick/ban rates, and in-game metrics. The data is sourced from gol.gg (Games of Legends), a popular platform for esports statistics. This dataset offers valuable information for analysts, coaches, and players to understand champion dynamics in the 2024 Worlds tournament.

**File Information**

The dataset is stored in a CSV file named **champions.csv** and contains the following columns:

* **Champion:** The name of the champion in the Swiss Stage.
* **Picks:** The number of times each champion was picked during the Swiss Stage matches.
* **Bans:** The number of times each champion was banned, indicating their perceived threat level.
* **Presence:** The percentage of matches where the champion was either picked or banned.
* **Wins:** The total number of games the champion won.
* **Losses:** The total number of games the champion lost.
* **Winrate:** The win percentage calculated from the champion's games.
* **KDA (Kills/Deaths/Assists):** A performance metric representing how effectively the champion contributes to team fights.
* **Avg BT (Average Build Time):** The average time required for the champion to complete their item build.
* **GT (Game Time):** The length of time the champion was involved in matches, reported in HH:MM:SS format.
* **CSM (Creep Score per Minute):** Average number of minions killed per minute, reflecting farming efficiency.
* **DPM (Damage per Minute):** Average damage dealt by the champion per minute.
* **GPM (Gold per Minute):** Gold earned by the champion per minute.
* **CSD@15 (Creep Score Difference at 15 minutes):** Difference in creep score compared to the opposing player by the 15-minute mark.
* **GD@15 (Gold Difference at 15 minutes):** The difference in gold between the champion and their opponent at the 15-minute mark.
* **XPD@15 (Experience Difference at 15 minutes):** The experience point difference between the champion and their opponent at the 15-minute mark.
Here’s the updated version of your dataset description, reflecting the data source and relevant legal disclaimers:

**Provenance:**

The dataset was collected from **gol.gg (Games of Legends)**, an esports statistics platform. GOL provides comprehensive stats for competitive gaming but is not officially endorsed by Riot Games. Therefore, this data does not reflect the views or opinions of Riot Games or anyone involved in managing **League of Legends.**

In [50]:
#Importación de datos y librerias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = "/content/drive/MyDrive/Bootcamp Coding Dojo/DataScience/Tareas Core/Archivos CSV-Tareas/champions.csv"
df = pd.read_csv(url)
df

Unnamed: 0,Champion,Picks,Bans,Presence,Wins,Losses,Winrate,KDA,Avg BT,GT,CSM,DPM,GPM,CSD@15,GD@15,XPD@15
0,Aurora,9,30,100%,7.0,2.0,78%,6.6,3.6,32:52:00,7.9,678.0,402.0,0.6,76.0,-10.0
1,Yone,18,19,95%,13.0,5.0,72%,4.4,3.2,32:14:00,9.6,711.0,451.0,6.7,434.0,372.0
2,Rell,26,5,79%,15.0,11.0,58%,3.0,8.8,34:22:00,1.0,144.0,247.0,-0.5,11.0,-58.0
3,Jax,15,15,77%,6.0,9.0,40%,2.6,5,35:00:00,7.8,403.0,396.0,-8.9,-128.0,-201.0
4,Skarner,13,17,77%,7.0,6.0,54%,3.9,4,31:48:00,5.8,372.0,332.0,2.4,77.0,77.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
163,Belveth,0,0,0%,,,,,-,,,,,,,
164,Nilah,0,0,0%,,,,,-,,,,,,,
165,Milio,0,0,0%,,,,,-,,,,,,,
166,Naafiri,0,0,0%,,,,,-,,,,,,,


In [51]:
# Primeros 10 datos
print(df.head(10))

   Champion  Picks  Bans Presence  Wins  Losses Winrate  KDA Avg BT        GT  \
0    Aurora      9    30     100%   7.0     2.0     78%  6.6    3.6  32:52:00   
1      Yone     18    19      95%  13.0     5.0     72%  4.4    3.2  32:14:00   
2      Rell     26     5      79%  15.0    11.0     58%  3.0    8.8  34:22:00   
3       Jax     15    15      77%   6.0     9.0     40%  2.6      5  35:00:00   
4   Skarner     13    17      77%   7.0     6.0     54%  3.9      4  31:48:00   
5     Ziggs      5    24      74%   2.0     3.0     40%  3.9    4.5  32:33:00   
6      Ashe      5    23      72%   3.0     2.0     60%  6.6    6.4  34:26:00   
7      Gnar     17    11      72%  11.0     6.0     65%  3.1      4  32:43:00   
8     Kaisa     18    10      72%  10.0     8.0     56%  5.9    8.4  33:01:00   
9     Poppy      9    17      67%   2.0     7.0     22%  1.9    6.5  35:25:00   

    CSM    DPM    GPM  CSD@15  GD@15  XPD@15  
0   7.9  678.0  402.0     0.6   76.0   -10.0  
1   9.6  711.0

In [52]:
# Ultimos 5 datos
print(df.tail(5))

     Champion  Picks  Bans Presence  Wins  Losses Winrate  KDA Avg BT   GT  \
163   Belveth      0     0       0%   NaN     NaN     NaN  NaN      -  NaN   
164     Nilah      0     0       0%   NaN     NaN     NaN  NaN      -  NaN   
165     Milio      0     0       0%   NaN     NaN     NaN  NaN      -  NaN   
166   Naafiri      0     0       0%   NaN     NaN     NaN  NaN      -  NaN   
167     Briar      0     0       0%   NaN     NaN     NaN  NaN      -  NaN   

     CSM  DPM  GPM  CSD@15  GD@15  XPD@15  
163  NaN  NaN  NaN     NaN    NaN     NaN  
164  NaN  NaN  NaN     NaN    NaN     NaN  
165  NaN  NaN  NaN     NaN    NaN     NaN  
166  NaN  NaN  NaN     NaN    NaN     NaN  
167  NaN  NaN  NaN     NaN    NaN     NaN  


In [53]:
# Información general del Dataframe
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 168 entries, 0 to 167
Data columns (total 16 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Champion  168 non-null    object 
 1   Picks     168 non-null    int64  
 2   Bans      168 non-null    int64  
 3   Presence  168 non-null    object 
 4   Wins      64 non-null     float64
 5   Losses    64 non-null     float64
 6   Winrate   64 non-null     object 
 7   KDA       64 non-null     float64
 8   Avg BT    168 non-null    object 
 9   GT        64 non-null     object 
 10  CSM       64 non-null     float64
 11  DPM       64 non-null     float64
 12  GPM       64 non-null     float64
 13  CSD@15    64 non-null     float64
 14  GD@15     64 non-null     float64
 15  XPD@15    64 non-null     float64
dtypes: float64(9), int64(2), object(5)
memory usage: 21.1+ KB
None


In [54]:
# Estadisticas descriptivas del Dataframe
print(df.describe())

            Picks        Bans       Wins     Losses        KDA        CSM  \
count  168.000000  168.000000  64.000000  64.000000  64.000000  64.000000   
mean     2.321429    2.315476   3.046875   3.046875   5.020313   7.078125   
std      4.549556    5.030613   3.470646   2.774199   4.188161   2.694407   
min      0.000000    0.000000   0.000000   0.000000   0.900000   1.000000   
25%      0.000000    0.000000   1.000000   1.000000   2.575000   6.175000   
50%      0.000000    0.000000   2.000000   2.500000   3.600000   7.850000   
75%      3.000000    1.000000   4.250000   5.000000   5.975000   8.825000   
max     26.000000   30.000000  15.000000  11.000000  21.000000  10.400000   

               DPM         GPM     CSD@15        GD@15       XPD@15  
count    64.000000   64.000000  64.000000    64.000000    64.000000  
mean    516.140625  380.890625   1.453125    85.531250    28.281250  
std     227.381357   73.080542  11.518019   568.744732   527.419247  
min     114.000000  209.00

In [55]:
# Verificación de valores nulos
print(df.isnull().sum())

Champion      0
Picks         0
Bans          0
Presence      0
Wins        104
Losses      104
Winrate     104
KDA         104
Avg BT        0
GT          104
CSM         104
DPM         104
GPM         104
CSD@15      104
GD@15       104
XPD@15      104
dtype: int64


In [56]:
# Eliminar el símbolo % de las Columnas Presence y Winrate y convertir a tipo float64
df['Presence'] = df['Presence'].str.rstrip('%').astype('float64') / 100
df['Winrate'] = df['Winrate'].str.rstrip('%').astype('float64') / 100

print(df[['Presence', 'Winrate']].dtypes)

Presence    float64
Winrate     float64
dtype: object


In [57]:
# Importar datetime para manejar el formato de tiempo
from datetime import datetime
# Convertir la columna GT a formato de tiempo
df['GT'] = pd.to_timedelta(df['GT']).dt.total_seconds()/ 60

print(df['GT'].head())

0    1972.0
1    1934.0
2    2062.0
3    2100.0
4    1908.0
Name: GT, dtype: float64


In [58]:
# Tipos de datos
print(df.dtypes)

Champion     object
Picks         int64
Bans          int64
Presence    float64
Wins        float64
Losses      float64
Winrate     float64
KDA         float64
Avg BT       object
GT          float64
CSM         float64
DPM         float64
GPM         float64
CSD@15      float64
GD@15       float64
XPD@15      float64
dtype: object


In [59]:
# Eliminación de filas con valores faltantes.
df.dropna(inplace=True) # Son campeones que deben manejar estadisticas individuales y unicas.


In [60]:
# Mejores Campeones basados en datos
más_victorias = df.loc[df['Wins'].idxmax()]
print("Campeón con más Victorias:", más_victorias['Champion'])

mejor_winrate = df.loc[df['Winrate'].idxmax()]
print("Campeón con más porcentaje de Victorias:", mejor_winrate['Champion'])

mejor_kda = df.loc[df['KDA'].idxmax()]
print("Campeón con mejor KDA:", mejor_kda['Champion'])

más_picks = df.loc[df['Picks'].idxmax()]
print("Campeón más elegido:", más_picks['Champion'])

más_bans = df.loc[df['Bans'].idxmax()]
print("Campeón con más Baneos:", más_bans['Champion'])


Campeón con más Victorias:  Rell
Campeón con más porcentaje de Victorias:  Braum
Campeón con mejor KDA:  Nunu
Campeón más elegido:  Rell
Campeón con más Baneos:  Aurora


In [61]:
# Mejores campeones
grouped_champions = df.groupby('Champion').agg({'Winrate': 'mean', 'KDA': 'mean'})
sorted_grouped_champions = grouped_champions.sort_values(by='KDA', ascending=False)
top_5_mejores_campeones = sorted_grouped_champions.head(5)

print(top_5_mejores_campeones)


          Winrate   KDA
Champion               
 Nunu         1.0  21.0
 Hwei         1.0  19.0
 Twitch       1.0  17.0
 Gragas       1.0  14.0
 LeBlanc      1.0  14.0


In [62]:
# Sumas y media de Porcentaje de Victorias con Datos de KDA y Presencia
suma_winrate = df.groupby('Champion')['Winrate'].sum()
media_winrate = df.groupby('Champion')['Winrate'].mean()
presencia_campeón = df.groupby('Champion')['Presence'].count()
minimo_kda = df.groupby('Champion')['KDA'].min()
maximo_kda = df.groupby('Champion')['KDA'].max()

print(suma_winrate)
print(media_winrate)
print(presencia_campeón)
print(minimo_kda)
print(maximo_kda)


Champion
 Ahri        0.58
 Akali       0.00
 Alistar     0.00
 Amumu       0.00
 Ashe        0.60
             ... 
 Xin Zhao    1.00
 Yasuo       0.50
 Yone        0.72
 Ziggs       0.40
 Zyra        0.00
Name: Winrate, Length: 64, dtype: float64
Champion
 Ahri        0.58
 Akali       0.00
 Alistar     0.00
 Amumu       0.00
 Ashe        0.60
             ... 
 Xin Zhao    1.00
 Yasuo       0.50
 Yone        0.72
 Ziggs       0.40
 Zyra        0.00
Name: Winrate, Length: 64, dtype: float64
Champion
 Ahri        1
 Akali       1
 Alistar     1
 Amumu       1
 Ashe        1
            ..
 Xin Zhao    1
 Yasuo       1
 Yone        1
 Ziggs       1
 Zyra        1
Name: Presence, Length: 64, dtype: int64
Champion
 Ahri         6.7
 Akali        0.9
 Alistar      1.2
 Amumu        2.2
 Ashe         6.6
             ... 
 Xin Zhao    11.0
 Yasuo        3.1
 Yone         4.4
 Ziggs        3.9
 Zyra         2.4
Name: KDA, Length: 64, dtype: float64
Champion
 Ahri         6.7
 Akali        0

In [63]:
# Puntuación de Campeones
def calcular_puntuacion(fila):
    return fila['Winrate'] * 0.5 + fila['KDA'] * 0.5

df['puntuacion'] = df.apply(calcular_puntuacion, axis=1)
print(df[['Champion', 'Winrate', 'KDA', 'puntuacion']])


     Champion  Winrate   KDA  puntuacion
0      Aurora     0.78   6.6        3.69
1        Yone     0.72   4.4        2.56
2        Rell     0.58   3.0        1.79
3         Jax     0.40   2.6        1.50
4     Skarner     0.54   3.9        2.22
..        ...      ...   ...         ...
62      Urgot     0.00   2.3        1.15
63   Xin Zhao     1.00  11.0        6.00
67    Camille     1.00   6.5        3.75
68     Lillia     0.00   4.0        2.00
70       Hwei     1.00  19.0       10.00

[64 rows x 4 columns]


In [64]:
# Rendimiento de Campeones
def marcar_alto_rendimiento(fila):
    if fila['Winrate'] > 0.5 and fila['KDA'] > 3:
        return 'Alto'
    else:
        return 'Bajo'

df['rendimiento'] = df.apply(marcar_alto_rendimiento, axis=1)
print(df[['Champion', 'Winrate', 'KDA', 'rendimiento']])


     Champion  Winrate   KDA rendimiento
0      Aurora     0.78   6.6        Alto
1        Yone     0.72   4.4        Alto
2        Rell     0.58   3.0        Bajo
3         Jax     0.40   2.6        Bajo
4     Skarner     0.54   3.9        Alto
..        ...      ...   ...         ...
62      Urgot     0.00   2.3        Bajo
63   Xin Zhao     1.00  11.0        Alto
67    Camille     1.00   6.5        Alto
68     Lillia     0.00   4.0        Bajo
70       Hwei     1.00  19.0        Alto

[64 rows x 4 columns]
