In [1]:
import pandas as pd
import numpy as np
from io import StringIO
import pytz 
from datetime import datetime,timezone
from zoneinfo import ZoneInfo


Imagina que eres un investigador en el mundo de Pokémon y has recibido una base de datos con información desactualizada y desordenada sobre avistamientos de Pokémon. Tu misión es limpiar y actualizar esta base de datos para que pueda ser utilizada en un estudio sobre la población de Pokémon en la región.

Datos Iniciales

Los datos iniciales contienen las siguientes columnas:

    SightingDate: Fecha del avistamiento.
    TrainerID: Identificación del entrenador que reportó el avistamiento.
    PokemonName: Nombre del Pokémon avistado.
    CP: Puntos de combate del Pokémon reportado.
    HP: Puntos de salud del Pokémon reportado.
    Type: Tipo del Pokémon.
    Weather: Clima durante el avistamiento.

# 1 Carga de Datos

In [2]:
path_datos = 'pokemon.csv'
# TODO completa el codigo para cargar los datos
df = pd.read_csv(path_datos, encoding= 'latin-1')
print(df)

               SightingDate    SightingTimeUTC TrainerID PokémonName       CP  \
0  2023-11-08T14:00:00+0000  2023-11-08T14:00Z     TR123     Pikachu      500   
1  2023-07-12T09:30:00+0100  2023-07-12T08:30Z     TR456       Eevee  MISSING   
2  2023/02/23T22:15:00+0900  2023-02-23T13:15Z     TR789    Magicarp    1,000   
3  2023-04-30T06:45:00-0400  2023-04-30T10:45Z     TR101      Gengar      800   
4  2023-08-15T16:00:00+1000                NaN     TR102   Bulbasaur      750   

   HP          Type        Weather  
0  35      Electric          Clear  
1  55        Normal         Cloudy  
2  10         Water           Rain  
3  45         Ghost  PARTLY_CLOUDY  
4  50  Grass/Poison          Sunny  


# Limpieza de Datos

## 1 Normalizacion de Zonas Horarias

Normaliza la columna `'SightingTimeUTC'` a la zona horaria UTC y convierte `'SightingDate'` al mismo formato de tiempo.


In [3]:
# Tu código aquí 
df['SightingTimeUTC'] =  pd.to_datetime(df['SightingTimeUTC'])

df['SightingDate'] =  pd.to_datetime(df['SightingDate'], utc=True, format= "mixed")
print(df)

               SightingDate           SightingTimeUTC TrainerID PokémonName  \
0 2023-11-08 14:00:00+00:00 2023-11-08 14:00:00+00:00     TR123     Pikachu   
1 2023-07-12 08:30:00+00:00 2023-07-12 08:30:00+00:00     TR456       Eevee   
2 2023-02-23 13:15:00+00:00 2023-02-23 13:15:00+00:00     TR789    Magicarp   
3 2023-04-30 10:45:00+00:00 2023-04-30 10:45:00+00:00     TR101      Gengar   
4 2023-08-15 06:00:00+00:00                       NaT     TR102   Bulbasaur   

        CP  HP          Type        Weather  
0      500  35      Electric          Clear  
1  MISSING  55        Normal         Cloudy  
2    1,000  10         Water           Rain  
3      800  45         Ghost  PARTLY_CLOUDY  
4      750  50  Grass/Poison          Sunny  


Compara si la fecha de la columna `'SightingDate'` coincide con la fecha en `'SightingTimeUTC'` una vez normalizada.


In [4]:
# Pista: Puedes crear una columna nueva para el resultado de la comparación.
df['DateMatch'] = df['SightingDate'] == df['SightingTimeUTC']
print(df)


               SightingDate           SightingTimeUTC TrainerID PokémonName  \
0 2023-11-08 14:00:00+00:00 2023-11-08 14:00:00+00:00     TR123     Pikachu   
1 2023-07-12 08:30:00+00:00 2023-07-12 08:30:00+00:00     TR456       Eevee   
2 2023-02-23 13:15:00+00:00 2023-02-23 13:15:00+00:00     TR789    Magicarp   
3 2023-04-30 10:45:00+00:00 2023-04-30 10:45:00+00:00     TR101      Gengar   
4 2023-08-15 06:00:00+00:00                       NaT     TR102   Bulbasaur   

        CP  HP          Type        Weather  DateMatch  
0      500  35      Electric          Clear       True  
1  MISSING  55        Normal         Cloudy       True  
2    1,000  10         Water           Rain       True  
3      800  45         Ghost  PARTLY_CLOUDY       True  
4      750  50  Grass/Poison          Sunny      False  


Ajusta `'SightingTimeUTC'` a la zona horaria local de cada entrenador y crea una columna `'SightingTimeLocal'`.

In [5]:
df['SightingTimeLocal'] = df['SightingTimeUTC'].dt.tz_convert('Mexico/General')
print(df)

               SightingDate           SightingTimeUTC TrainerID PokémonName  \
0 2023-11-08 14:00:00+00:00 2023-11-08 14:00:00+00:00     TR123     Pikachu   
1 2023-07-12 08:30:00+00:00 2023-07-12 08:30:00+00:00     TR456       Eevee   
2 2023-02-23 13:15:00+00:00 2023-02-23 13:15:00+00:00     TR789    Magicarp   
3 2023-04-30 10:45:00+00:00 2023-04-30 10:45:00+00:00     TR101      Gengar   
4 2023-08-15 06:00:00+00:00                       NaT     TR102   Bulbasaur   

        CP  HP          Type        Weather  DateMatch  \
0      500  35      Electric          Clear       True   
1  MISSING  55        Normal         Cloudy       True   
2    1,000  10         Water           Rain       True   
3      800  45         Ghost  PARTLY_CLOUDY       True   
4      750  50  Grass/Poison          Sunny      False   

          SightingTimeLocal  
0 2023-11-08 08:00:00-06:00  
1 2023-07-12 02:30:00-06:00  
2 2023-02-23 07:15:00-06:00  
3 2023-04-30 04:45:00-06:00  
4                       Na

Calcula el tiempo transcurrido desde el momento del avistamiento hasta `'ahora'` (tu hora local) y crea una columna `'TimeSinceSighting'`.

In [6]:
now_utc = datetime.now(timezone.utc)

df['TimeSinceSighting'] = now_utc - df['SightingTimeLocal']
print(df)

               SightingDate           SightingTimeUTC TrainerID PokémonName  \
0 2023-11-08 14:00:00+00:00 2023-11-08 14:00:00+00:00     TR123     Pikachu   
1 2023-07-12 08:30:00+00:00 2023-07-12 08:30:00+00:00     TR456       Eevee   
2 2023-02-23 13:15:00+00:00 2023-02-23 13:15:00+00:00     TR789    Magicarp   
3 2023-04-30 10:45:00+00:00 2023-04-30 10:45:00+00:00     TR101      Gengar   
4 2023-08-15 06:00:00+00:00                       NaT     TR102   Bulbasaur   

        CP  HP          Type        Weather  DateMatch  \
0      500  35      Electric          Clear       True   
1  MISSING  55        Normal         Cloudy       True   
2    1,000  10         Water           Rain       True   
3      800  45         Ghost  PARTLY_CLOUDY       True   
4      750  50  Grass/Poison          Sunny      False   

          SightingTimeLocal        TimeSinceSighting  
0 2023-11-08 08:00:00-06:00   2 days 09:27:52.408933  
1 2023-07-12 02:30:00-06:00 121 days 14:57:52.408933  
2 2023-02-2

## 2. Limpeiza de IDs

Llena los valores faltantes en `'TrainerID'` con el ID `'UNKNOWN'`.


In [7]:
df['TrainerID'] = # Tu código aquí


SyntaxError: invalid syntax (3719234851.py, line 1)

## 3. Corrección de Nombres de Pokémon

Asegúrate de que los nombres de Pokémon estén capitalizados correctamente.


In [8]:
df['PokémonName'] = df['PokémonName'].str.capitalize()
print(df)


               SightingDate           SightingTimeUTC TrainerID PokémonName  \
0 2023-11-08 14:00:00+00:00 2023-11-08 14:00:00+00:00     TR123     Pikachu   
1 2023-07-12 08:30:00+00:00 2023-07-12 08:30:00+00:00     TR456       Eevee   
2 2023-02-23 13:15:00+00:00 2023-02-23 13:15:00+00:00     TR789    Magicarp   
3 2023-04-30 10:45:00+00:00 2023-04-30 10:45:00+00:00     TR101      Gengar   
4 2023-08-15 06:00:00+00:00                       NaT     TR102   Bulbasaur   

        CP  HP          Type        Weather  DateMatch  \
0      500  35      Electric          Clear       True   
1  MISSING  55        Normal         Cloudy       True   
2    1,000  10         Water           Rain       True   
3      800  45         Ghost  PARTLY_CLOUDY       True   
4      750  50  Grass/Poison          Sunny      False   

          SightingTimeLocal        TimeSinceSighting  
0 2023-11-08 08:00:00-06:00   2 days 09:27:52.408933  
1 2023-07-12 02:30:00-06:00 121 days 14:57:52.408933  
2 2023-02-2

## 4. Conversión de 'CP' y 'HP' a Numéricos

Convierte `'CP'` y `'HP'` a valores numéricos, manejando los `'MISSING'` y comas como separadores de miles.

In [23]:
df['CP'] = df['CP'].astype(str)
df['HP'] = df['HP'].astype(str)
df['HP'] = pd.to_numeric(df['CP'].str.replace(',', ''), errors='coerce')
df['CP'] = pd.to_numeric(df['CP'].str.replace(',', ''), errors='coerce')
print(df)


               SightingDate           SightingTimeUTC TrainerID PokémonName  \
0 2023-11-08 14:00:00+00:00 2023-11-08 14:00:00+00:00     TR123     Pikachu   
1 2023-07-12 08:30:00+00:00 2023-07-12 08:30:00+00:00     TR456       Eevee   
2 2023-02-23 13:15:00+00:00 2023-02-23 13:15:00+00:00     TR789    Magicarp   
3 2023-04-30 10:45:00+00:00 2023-04-30 10:45:00+00:00     TR101      Gengar   
4 2023-08-15 06:00:00+00:00                       NaT     TR102   Bulbasaur   

       CP      HP          Type        Weather  DateMatch  \
0   500.0   500.0      Electric          Clear       True   
1     NaN     NaN        Normal         Cloudy       True   
2  1000.0  1000.0         Water           Rain       True   
3   800.0   800.0         Ghost  PARTLY_CLOUDY       True   
4   750.0   750.0  Grass/Poison          Sunny      False   

          SightingTimeLocal        TimeSinceSighting  
0 2023-11-08 08:00:00-06:00   2 days 09:27:52.408933  
1 2023-07-12 02:30:00-06:00 121 days 14:57:52.40

## 5. Estandarización de 'Type'

Divide la columna `'Type'` en `'PrimaryType'` y `'SecondaryType'` cuando hay dos tipos.


In [None]:
df[['PrimaryType', 'SecondaryType']] = # Tu código aquí


## 6. Corrección del Clima

Estándariza la columna `'Weather'` para que todos los valores sean mayúsculas.


In [None]:
df['Weather'] = # Tu código aquí


# 3 Analisis de Datos

## Agrupaciones

Agrupa el DataFrame por `'Type'` y calcula la suma de `'CP'` para cada grupo.

In [None]:
# Tu codigo aqui

Después de la suma, agrega una columna que calcule la media de `'HP'` por cada `'Type'`, pero solo para aquellos Pokémon cuyo `'CP'` sea mayor que el promedio de `'CP'` de todo el DataFrame.

In [None]:
# Tu codigo aqui