In [11]:
import pandas as pd
import numpy as np
from io import StringIO
from datetime import datetime


Imagina que eres un investigador en el mundo de Pokémon y has recibido una base de datos con información desactualizada y desordenada sobre avistamientos de Pokémon. Tu misión es limpiar y actualizar esta base de datos para que pueda ser utilizada en un estudio sobre la población de Pokémon en la región.

Datos Iniciales

Los datos iniciales contienen las siguientes columnas:

    SightingDate: Fecha del avistamiento.
    TrainerID: Identificación del entrenador que reportó el avistamiento.
    PokemonName: Nombre del Pokémon avistado.
    CP: Puntos de combate del Pokémon reportado.
    HP: Puntos de salud del Pokémon reportado.
    Type: Tipo del Pokémon.
    Weather: Clima durante el avistamiento.

# 1 Carga de Datos

In [2]:
path_datos = 'pokemon.csv'
# TODO completa el codigo para cargar los datos
df = pd.read_csv(path_datos, encoding='ISO-8859-1')
df

#df = pd.read_csv(path_datos)

Unnamed: 0,SightingDate,SightingTimeUTC,TrainerID,PokémonName,CP,HP,Type,Weather
0,2023-11-08T14:00:00+0000,2023-11-08T14:00Z,TR123,Pikachu,500,35,Electric,Clear
1,2023-07-12T09:30:00+0100,2023-07-12T08:30Z,TR456,Eevee,MISSING,55,Normal,Cloudy
2,2023/02/23T22:15:00+0900,2023-02-23T13:15Z,TR789,Magicarp,1000,10,Water,Rain
3,2023-04-30T06:45:00-0400,2023-04-30T10:45Z,TR101,Gengar,800,45,Ghost,PARTLY_CLOUDY
4,2023-08-15T16:00:00+1000,,TR102,Bulbasaur,750,50,Grass/Poison,Sunny


# Limpieza de Datos

## 1 Normalizacion de Zonas Horarias

Normaliza la columna `'SightingTimeUTC'` a la zona horaria UTC y convierte `'SightingDate'` al mismo formato de tiempo.


In [6]:
df['SightingDate'] = pd.to_datetime(df['SightingDate'], errors='coerce', utc=True, format='mixed')

# Convertir la columna 'SightingTimeUTC' a datetime en formato UTC
# Se usa errors='coerce' para manejar cualquier valor que no se pueda convertir a datetime, como 'NaN'
df['SightingTimeUTC'] = pd.to_datetime(df['SightingTimeUTC'], errors='coerce', utc=True)

# Si hay alguna fila con 'SightingTimeUTC' como NaT (Not a Time), copiamos la fecha y hora de 'SightingDate'
df['SightingTimeUTC'] = df['SightingTimeUTC'].fillna(df['SightingDate'])

# Imprimir las primeras filas del dataframe para verificar
df

Unnamed: 0,SightingDate,SightingTimeUTC,TrainerID,PokémonName,CP,HP,Type,Weather
0,2023-11-08 14:00:00+00:00,2023-11-08 14:00:00+00:00,TR123,Pikachu,500,35,Electric,Clear
1,2023-07-12 08:30:00+00:00,2023-07-12 08:30:00+00:00,TR456,Eevee,MISSING,55,Normal,Cloudy
2,2023-02-23 13:15:00+00:00,2023-02-23 13:15:00+00:00,TR789,Magicarp,1000,10,Water,Rain
3,2023-04-30 10:45:00+00:00,2023-04-30 10:45:00+00:00,TR101,Gengar,800,45,Ghost,PARTLY_CLOUDY
4,2023-08-15 06:00:00+00:00,2023-08-15 06:00:00+00:00,TR102,Bulbasaur,750,50,Grass/Poison,Sunny


Compara si la fecha de la columna `'SightingDate'` coincide con la fecha en `'SightingTimeUTC'` una vez normalizada.


In [7]:
df['SightingTimeUTC_Date'] = pd.to_datetime(df['SightingTimeUTC'], utc=True, errors='coerce').dt.date

# Convertir la columna 'SightingDate' a datetime en UTC y extraer solo la parte de la fecha
df['SightingDate_Date'] = pd.to_datetime(df['SightingDate'], utc=True, errors='coerce').dt.date

# Comparar si las fechas coinciden
df['DateMatch'] = df['SightingTimeUTC_Date'] == df['SightingDate_Date']

# Imprimir las primeras filas para verificar el resultado
df

Unnamed: 0,SightingDate,SightingTimeUTC,TrainerID,PokémonName,CP,HP,Type,Weather,SightingTimeUTC_Date,SightingDate_Date,DateMatch
0,2023-11-08 14:00:00+00:00,2023-11-08 14:00:00+00:00,TR123,Pikachu,500,35,Electric,Clear,2023-11-08,2023-11-08,True
1,2023-07-12 08:30:00+00:00,2023-07-12 08:30:00+00:00,TR456,Eevee,MISSING,55,Normal,Cloudy,2023-07-12,2023-07-12,True
2,2023-02-23 13:15:00+00:00,2023-02-23 13:15:00+00:00,TR789,Magicarp,1000,10,Water,Rain,2023-02-23,2023-02-23,True
3,2023-04-30 10:45:00+00:00,2023-04-30 10:45:00+00:00,TR101,Gengar,800,45,Ghost,PARTLY_CLOUDY,2023-04-30,2023-04-30,True
4,2023-08-15 06:00:00+00:00,2023-08-15 06:00:00+00:00,TR102,Bulbasaur,750,50,Grass/Poison,Sunny,2023-08-15,2023-08-15,True


Ajusta `'SightingTimeUTC'` a la zona horaria local de cada entrenador y crea una columna `'SightingTimeLocal'`.

In [10]:



# Asumimos que 'df' es tu DataFrame y que ya está definido en tu entorno

# Primero, asegurarse de que 'SightingTimeUTC' esté en formato de fecha y hora con la zona horaria incluida
df['SightingTimeUTC'] = pd.to_datetime(df['SightingTimeUTC'], errors='coerce')

# La conversión a la zona horaria local se puede realizar directamente ya que 'SightingTimeUTC' contiene la zona horaria
df['SightingTimeLocal'] = df['SightingTimeUTC'].dt.tz_localize(None)

# Muestra el resultado para verificar
df


Unnamed: 0,SightingDate,SightingTimeUTC,TrainerID,PokémonName,CP,HP,Type,Weather,SightingTimeUTC_Date,SightingDate_Date,DateMatch,SightingTimeLocal
0,2023-11-08 14:00:00+00:00,2023-11-08 14:00:00+00:00,TR123,Pikachu,500,35,Electric,Clear,2023-11-08,2023-11-08,True,2023-11-08 14:00:00
1,2023-07-12 08:30:00+00:00,2023-07-12 08:30:00+00:00,TR456,Eevee,MISSING,55,Normal,Cloudy,2023-07-12,2023-07-12,True,2023-07-12 08:30:00
2,2023-02-23 13:15:00+00:00,2023-02-23 13:15:00+00:00,TR789,Magicarp,1000,10,Water,Rain,2023-02-23,2023-02-23,True,2023-02-23 13:15:00
3,2023-04-30 10:45:00+00:00,2023-04-30 10:45:00+00:00,TR101,Gengar,800,45,Ghost,PARTLY_CLOUDY,2023-04-30,2023-04-30,True,2023-04-30 10:45:00
4,2023-08-15 06:00:00+00:00,2023-08-15 06:00:00+00:00,TR102,Bulbasaur,750,50,Grass/Poison,Sunny,2023-08-15,2023-08-15,True,2023-08-15 06:00:00


Calcula el tiempo transcurrido desde el momento del avistamiento hasta `'ahora'` (tu hora local) y crea una columna `'TimeSinceSighting'`.

In [12]:

df['SightingTimeUTC'] = pd.to_datetime(df['SightingTimeUTC'], errors='coerce')

# Obtener la hora actual en UTC
now_utc = pd.Timestamp.now(tz='UTC')

# Calcular el tiempo transcurrido desde el avistamiento hasta ahora (en UTC)
df['TimeSinceSighting'] = now_utc - df['SightingTimeUTC']# Tu código aquí
df


Unnamed: 0,SightingDate,SightingTimeUTC,TrainerID,PokémonName,CP,HP,Type,Weather,SightingTimeUTC_Date,SightingDate_Date,DateMatch,SightingTimeLocal,TimeSinceSighting
0,2023-11-08 14:00:00+00:00,2023-11-08 14:00:00+00:00,TR123,Pikachu,500,35,Electric,Clear,2023-11-08,2023-11-08,True,2023-11-08 14:00:00,0 days 11:11:44.352360
1,2023-07-12 08:30:00+00:00,2023-07-12 08:30:00+00:00,TR456,Eevee,MISSING,55,Normal,Cloudy,2023-07-12,2023-07-12,True,2023-07-12 08:30:00,119 days 16:41:44.352360
2,2023-02-23 13:15:00+00:00,2023-02-23 13:15:00+00:00,TR789,Magicarp,1000,10,Water,Rain,2023-02-23,2023-02-23,True,2023-02-23 13:15:00,258 days 11:56:44.352360
3,2023-04-30 10:45:00+00:00,2023-04-30 10:45:00+00:00,TR101,Gengar,800,45,Ghost,PARTLY_CLOUDY,2023-04-30,2023-04-30,True,2023-04-30 10:45:00,192 days 14:26:44.352360
4,2023-08-15 06:00:00+00:00,2023-08-15 06:00:00+00:00,TR102,Bulbasaur,750,50,Grass/Poison,Sunny,2023-08-15,2023-08-15,True,2023-08-15 06:00:00,85 days 19:11:44.352360


## 2. Limpeiza de IDs

Llena los valores faltantes en `'TrainerID'` con el ID `'UNKNOWN'`.


In [14]:
df['TrainerID'] = df['TrainerID'].fillna('UNKNOWN')
df


Unnamed: 0,SightingDate,SightingTimeUTC,TrainerID,PokémonName,CP,HP,Type,Weather,SightingTimeUTC_Date,SightingDate_Date,DateMatch,SightingTimeLocal,TimeSinceSighting
0,2023-11-08 14:00:00+00:00,2023-11-08 14:00:00+00:00,TR123,Pikachu,500,35,Electric,Clear,2023-11-08,2023-11-08,True,2023-11-08 14:00:00,0 days 11:11:44.352360
1,2023-07-12 08:30:00+00:00,2023-07-12 08:30:00+00:00,TR456,Eevee,MISSING,55,Normal,Cloudy,2023-07-12,2023-07-12,True,2023-07-12 08:30:00,119 days 16:41:44.352360
2,2023-02-23 13:15:00+00:00,2023-02-23 13:15:00+00:00,TR789,Magicarp,1000,10,Water,Rain,2023-02-23,2023-02-23,True,2023-02-23 13:15:00,258 days 11:56:44.352360
3,2023-04-30 10:45:00+00:00,2023-04-30 10:45:00+00:00,TR101,Gengar,800,45,Ghost,PARTLY_CLOUDY,2023-04-30,2023-04-30,True,2023-04-30 10:45:00,192 days 14:26:44.352360
4,2023-08-15 06:00:00+00:00,2023-08-15 06:00:00+00:00,TR102,Bulbasaur,750,50,Grass/Poison,Sunny,2023-08-15,2023-08-15,True,2023-08-15 06:00:00,85 days 19:11:44.352360


## 3. Corrección de Nombres de Pokémon

Asegúrate de que los nombres de Pokémon estén capitalizados correctamente.


In [16]:
df['PokémonName'] = df['PokémonName'].str.title()# Tu código aquí
df


Unnamed: 0,SightingDate,SightingTimeUTC,TrainerID,PokémonName,CP,HP,Type,Weather,SightingTimeUTC_Date,SightingDate_Date,DateMatch,SightingTimeLocal,TimeSinceSighting
0,2023-11-08 14:00:00+00:00,2023-11-08 14:00:00+00:00,TR123,Pikachu,500,35,Electric,Clear,2023-11-08,2023-11-08,True,2023-11-08 14:00:00,0 days 11:11:44.352360
1,2023-07-12 08:30:00+00:00,2023-07-12 08:30:00+00:00,TR456,Eevee,MISSING,55,Normal,Cloudy,2023-07-12,2023-07-12,True,2023-07-12 08:30:00,119 days 16:41:44.352360
2,2023-02-23 13:15:00+00:00,2023-02-23 13:15:00+00:00,TR789,Magicarp,1000,10,Water,Rain,2023-02-23,2023-02-23,True,2023-02-23 13:15:00,258 days 11:56:44.352360
3,2023-04-30 10:45:00+00:00,2023-04-30 10:45:00+00:00,TR101,Gengar,800,45,Ghost,PARTLY_CLOUDY,2023-04-30,2023-04-30,True,2023-04-30 10:45:00,192 days 14:26:44.352360
4,2023-08-15 06:00:00+00:00,2023-08-15 06:00:00+00:00,TR102,Bulbasaur,750,50,Grass/Poison,Sunny,2023-08-15,2023-08-15,True,2023-08-15 06:00:00,85 days 19:11:44.352360


## 4. Conversión de 'CP' y 'HP' a Numéricos

Convierte `'CP'` y `'HP'` a valores numéricos, manejando los `'MISSING'` y comas como separadores de miles.

In [17]:
df['CP'] = df['CP'].astype(str)
df['HP'] = df['HP'].astype(str)

# Reemplaza 'MISSING' por NaN y elimina las comas, luego convierte a numérico
df['CP'] = pd.to_numeric(df['CP'].str.replace('MISSING', '').str.replace(',', ''), errors='coerce')
df['HP'] = pd.to_numeric(df['HP'].str.replace('MISSING', '').str.replace(',', ''), errors='coerce')
df

Unnamed: 0,SightingDate,SightingTimeUTC,TrainerID,PokémonName,CP,HP,Type,Weather,SightingTimeUTC_Date,SightingDate_Date,DateMatch,SightingTimeLocal,TimeSinceSighting
0,2023-11-08 14:00:00+00:00,2023-11-08 14:00:00+00:00,TR123,Pikachu,500.0,35,Electric,Clear,2023-11-08,2023-11-08,True,2023-11-08 14:00:00,0 days 11:11:44.352360
1,2023-07-12 08:30:00+00:00,2023-07-12 08:30:00+00:00,TR456,Eevee,,55,Normal,Cloudy,2023-07-12,2023-07-12,True,2023-07-12 08:30:00,119 days 16:41:44.352360
2,2023-02-23 13:15:00+00:00,2023-02-23 13:15:00+00:00,TR789,Magicarp,1000.0,10,Water,Rain,2023-02-23,2023-02-23,True,2023-02-23 13:15:00,258 days 11:56:44.352360
3,2023-04-30 10:45:00+00:00,2023-04-30 10:45:00+00:00,TR101,Gengar,800.0,45,Ghost,PARTLY_CLOUDY,2023-04-30,2023-04-30,True,2023-04-30 10:45:00,192 days 14:26:44.352360
4,2023-08-15 06:00:00+00:00,2023-08-15 06:00:00+00:00,TR102,Bulbasaur,750.0,50,Grass/Poison,Sunny,2023-08-15,2023-08-15,True,2023-08-15 06:00:00,85 days 19:11:44.352360


## 5. Estandarización de 'Type'

Divide la columna `'Type'` en `'PrimaryType'` y `'SecondaryType'` cuando hay dos tipos.


In [18]:
df[['PrimaryType', 'SecondaryType']] = df['Type'].str.split('/', expand=True)
df # Tu código aquí

#aqui no especifica si eliminamos la columna type, solo que la dividamos, por lo que no toque la 
#columna type y cree otras dos 


Unnamed: 0,SightingDate,SightingTimeUTC,TrainerID,PokémonName,CP,HP,Type,Weather,SightingTimeUTC_Date,SightingDate_Date,DateMatch,SightingTimeLocal,TimeSinceSighting,PrimaryType,SecondaryType
0,2023-11-08 14:00:00+00:00,2023-11-08 14:00:00+00:00,TR123,Pikachu,500.0,35,Electric,Clear,2023-11-08,2023-11-08,True,2023-11-08 14:00:00,0 days 11:11:44.352360,Electric,
1,2023-07-12 08:30:00+00:00,2023-07-12 08:30:00+00:00,TR456,Eevee,,55,Normal,Cloudy,2023-07-12,2023-07-12,True,2023-07-12 08:30:00,119 days 16:41:44.352360,Normal,
2,2023-02-23 13:15:00+00:00,2023-02-23 13:15:00+00:00,TR789,Magicarp,1000.0,10,Water,Rain,2023-02-23,2023-02-23,True,2023-02-23 13:15:00,258 days 11:56:44.352360,Water,
3,2023-04-30 10:45:00+00:00,2023-04-30 10:45:00+00:00,TR101,Gengar,800.0,45,Ghost,PARTLY_CLOUDY,2023-04-30,2023-04-30,True,2023-04-30 10:45:00,192 days 14:26:44.352360,Ghost,
4,2023-08-15 06:00:00+00:00,2023-08-15 06:00:00+00:00,TR102,Bulbasaur,750.0,50,Grass/Poison,Sunny,2023-08-15,2023-08-15,True,2023-08-15 06:00:00,85 days 19:11:44.352360,Grass,Poison


## 6. Corrección del Clima

Estándariza la columna `'Weather'` para que todos los valores sean mayúsculas.


In [19]:
df['Weather'] = df['Weather'].str.upper()
df


Unnamed: 0,SightingDate,SightingTimeUTC,TrainerID,PokémonName,CP,HP,Type,Weather,SightingTimeUTC_Date,SightingDate_Date,DateMatch,SightingTimeLocal,TimeSinceSighting,PrimaryType,SecondaryType
0,2023-11-08 14:00:00+00:00,2023-11-08 14:00:00+00:00,TR123,Pikachu,500.0,35,Electric,CLEAR,2023-11-08,2023-11-08,True,2023-11-08 14:00:00,0 days 11:11:44.352360,Electric,
1,2023-07-12 08:30:00+00:00,2023-07-12 08:30:00+00:00,TR456,Eevee,,55,Normal,CLOUDY,2023-07-12,2023-07-12,True,2023-07-12 08:30:00,119 days 16:41:44.352360,Normal,
2,2023-02-23 13:15:00+00:00,2023-02-23 13:15:00+00:00,TR789,Magicarp,1000.0,10,Water,RAIN,2023-02-23,2023-02-23,True,2023-02-23 13:15:00,258 days 11:56:44.352360,Water,
3,2023-04-30 10:45:00+00:00,2023-04-30 10:45:00+00:00,TR101,Gengar,800.0,45,Ghost,PARTLY_CLOUDY,2023-04-30,2023-04-30,True,2023-04-30 10:45:00,192 days 14:26:44.352360,Ghost,
4,2023-08-15 06:00:00+00:00,2023-08-15 06:00:00+00:00,TR102,Bulbasaur,750.0,50,Grass/Poison,SUNNY,2023-08-15,2023-08-15,True,2023-08-15 06:00:00,85 days 19:11:44.352360,Grass,Poison


# 3 Analisis de Datos

## Agrupaciones

Agrupa el DataFrame por `'Type'` y calcula la suma de `'CP'` para cada grupo.

In [20]:
cp_sum_by_type = df.groupby('Type')['CP'].sum().reset_index()

# Mostrar los resultados para verificar que la operación se ha realizado correctamente
cp_sum_by_type

Unnamed: 0,Type,CP
0,Electric,500.0
1,Ghost,800.0
2,Grass/Poison,750.0
3,Normal,0.0
4,Water,1000.0


Después de la suma, agrega una columna que calcule la media de `'HP'` por cada `'Type'`, pero solo para aquellos Pokémon cuyo `'CP'` sea mayor que el promedio de `'CP'` de todo el DataFrame.

In [21]:
# Tu codigo aqui
average_cp = df['CP'].mean()

# Filtramos el DataFrame para obtener solo aquellos Pokémon cuyo 'CP' sea mayor que el promedio
filtered_df = df[df['CP'] > average_cp]

# Agrupamos el DataFrame filtrado por 'Type' y calculamos la suma de 'CP' y la media de 'HP' para cada grupo
grouped_df = filtered_df.groupby('Type').agg({'CP': 'sum', 'HP': 'mean'}).reset_index()

# Mostrar los resultados
grouped_df

Unnamed: 0,Type,CP,HP
0,Ghost,800.0,45.0
1,Water,1000.0,10.0
