# EDA sobre un Dataset de los personajes que aparecen en Harry Potter

Este es un análisis para obtener información relevante sobre el dataset de los personajes de Harry Potter.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import chi2_contingency
import Functions_Visual as fv
import Functions_Cleaning as fc

In [36]:
# ESTABLECEMOS EL TEMA BASE DE LOS GRÁFICOS QUE SE VAN A REALIZAR
sns.set_theme()

In [37]:
# CARGAMOS EL DATASET
df_orig = pd.read_csv('./data/Characters_Harry_Potter.csv', sep = ";")

In [38]:
df_orig.info() # MOSTRAMOS ESTRUCTURA GENERAL DEL DATASET
df_orig.describe() # PRESENTAMOS ESTADISTICAS DESCRIPTIVAS(DE MOMENTO SÓLO HAY UNA VARIABLE NUMÉRICA)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140 entries, 0 to 139
Data columns (total 15 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Id            140 non-null    int64 
 1   Name          140 non-null    object
 2   Gender        139 non-null    object
 3   Job           121 non-null    object
 4   House         101 non-null    object
 5   Wand          132 non-null    object
 6   Patronus      123 non-null    object
 7   Species       140 non-null    object
 8   Blood status  123 non-null    object
 9   Hair colour   123 non-null    object
 10  Eye colour    86 non-null     object
 11  Loyalty       89 non-null     object
 12  Skills        113 non-null    object
 13  Birth         127 non-null    object
 14  Death         42 non-null     object
dtypes: int64(1), object(14)
memory usage: 16.5+ KB


Unnamed: 0,Id
count,140.0
mean,70.5
std,40.5586
min,1.0
25%,35.75
50%,70.5
75%,105.25
max,140.0


In [39]:
# MOSTRAMOS CUANTOS VALORES FALTANTES HAY EN CADA COLUMNA
print("Valores faltantes por columna:")
print(df_orig.isnull().sum(), "\n\n")

# MOSTRAMOS LA CANTIDAD DE VALORES ÚNICOS PARA DETECTAR POSIBLES INCOSISTENCIAS
count_unique_values = df_orig.nunique()
print("Valores únicos:")
print(count_unique_values)

Valores faltantes por columna:
Id               0
Name             0
Gender           1
Job             19
House           39
Wand             8
Patronus        17
Species          0
Blood status    17
Hair colour     17
Eye colour      54
Loyalty         51
Skills          27
Birth           13
Death           98
dtype: int64 


Valores únicos:
Id              140
Name            140
Gender            2
Job              65
House             6
Wand             29
Patronus         19
Species          10
Blood status     15
Hair colour      36
Eye colour       25
Loyalty          19
Skills           94
Birth           112
Death            25
dtype: int64


In [40]:
# MOSTRAMOS LA CANTIDAD DE VALORES ÚNICOS PARA DETECTAR POSIBLES INCOSISTENCIAS, Y LA CARDINALIDAD
count_unique_values = df_orig.nunique()
print("Valores únicos:")
print(count_unique_values)

print("\n\n", "Cardinalidad:")
print(count_unique_values / len(df_orig) * 100)

Valores únicos:
Id              140
Name            140
Gender            2
Job              65
House             6
Wand             29
Patronus         19
Species          10
Blood status     15
Hair colour      36
Eye colour       25
Loyalty          19
Skills           94
Birth           112
Death            25
dtype: int64


 Cardinalidad:
Id              100.000000
Name            100.000000
Gender            1.428571
Job              46.428571
House             4.285714
Wand             20.714286
Patronus         13.571429
Species           7.142857
Blood status     10.714286
Hair colour      25.714286
Eye colour       17.857143
Loyalty          13.571429
Skills           67.142857
Birth            80.000000
Death            17.857143
dtype: float64


- Dada la alta cardinalidad en la columna skills y Birth, y la alta cantidad de nulos en la columna Death, he decidido eliminarlas. 
- Tampoco las considero relevantes para mi análisis. 

In [41]:
df_orig.head() # OBSERVAMOS PRIMERAS FILAS

Unnamed: 0,Id,Name,Gender,Job,House,Wand,Patronus,Species,Blood status,Hair colour,Eye colour,Loyalty,Skills,Birth,Death
0,1,Harry James Potter,Male,Student,Gryffindor,"11"" Holly phoenix feather",Stag,Human,Half-blood,Black,Bright green,Albus Dumbledore | Dumbledore's Army | Order o...,Parseltongue| Defence Against the Dark Arts | ...,31 July 1980,
1,2,Ronald Bilius Weasley,Male,Student,Gryffindor,"12"" Ash unicorn tail hair",Jack Russell terrier,Human,Pure-blood,Red,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Wizard chess | Quidditch goalkeeping,1 March 1980,
2,3,Hermione Jean Granger,Female,Student,Gryffindor,"10¾"" vine wood dragon heartstring",Otter,Human,Muggle-born,Brown,Brown,Dumbledore's Army | Order of the Phoenix | Hog...,Almost everything,"19 September, 1979",
3,4,Albus Percival Wulfric Brian Dumbledore,Male,Headmaster,Gryffindor,"15"" Elder Thestral tail hair core",Phoenix,Human,Half-blood,Silver| formerly auburn,Blue,Dumbledore's Army | Order of the Phoenix | Hog...,Considered by many to be one of the most power...,Late August 1881,"30 June, 1997"
4,5,Rubeus Hagrid,Male,Keeper of Keys and Grounds | Professor of Care...,Gryffindor,"16"" Oak unknown core",,Half-Human/Half-Giant,Part-Human (Half-giant),Black,Black,Albus Dumbledore | Order of the Phoenix | Hogw...,Resistant to stunning spells| above average st...,6 December 1928,


Compruebo los valores únicos de algunas columnas para ver su contenido y si hay que limpiar o agrupar de alguna forma.

In [42]:
# Obtener los valores únicos de las columnas relevantes
columns_to_check = ["House", "Hair colour", "Eye colour", "Species", "Skills", "Loyalty"]

# Mostrar los valores únicos para cada columna
for col in columns_to_check:
    print(f"Valores únicos en '{col}':")
    print(df_orig[col].unique())
    print("\n")

Valores únicos en 'House':
['Gryffindor' 'Ravenclaw' 'Slytherin' nan 'Hufflepuff'
 'Beauxbatons Academy of Magic' 'Durmstrang Institute']


Valores únicos en 'Hair colour':
['Black' 'Red' 'Brown' 'Silver| formerly auburn' 'Blond' 'Sandy' 'Auburn'
 'Light brown flecked with grey' 'Colourless and balding' nan 'Dark'
 'Mousy' 'Dirty-blonde' 'White' 'Reddish-blonde' 'Blonde' 'White-blond'
 'Iron grey' 'Bald' 'Grey' 'White (balding)' 'Straw blond' 'Variable'
 'Red brown' 'Brown/greying' 'Silver| formerly black' 'Tawny' 'Silver'
 'Silvery-blonde' 'Ginger' 'Straw-coloured' 'Red ' 'Reddish-brown'
 'Mousy brown' 'Jet-black' 'White blond' 'Green']


Valores únicos en 'Eye colour':
['Bright green' 'Blue' 'Brown' 'Black' nan 'Bright brown' 'Hazel' 'Grey'
 'Green' 'Dark' 'Pale silvery' 'Silvery' 'Gooseberry' 'Scarlet\xa0'
 'Pale, freckled' 'Astonishingly blue' 'Variable'
 'One dark,\xa0one electric blue' 'Yellowish' 'Ruddy' 'Grey/Blue['
 'Dark blue[' 'Bright Blue' 'Dark Grey' 'Pale' 'Yellow']


Val

- Muchas columnas con nulos, hay que revisar que hacer (posiblemente haya que rellenar con 'Unknown' o sustituir por estadístico).
- Columnas categóricas House, Loyalty, Species, Eye Colour Y hair Colour hay que revisar incosistencias o posibles agrupaciones.
- Eliminar las columnas birth Y death, no son de importancia para mí y son problemáticas.
- Columna ID y name con cardinalidades 100%, se pueden usar cómo Index.

In [43]:
df_copy = df_orig.copy()

In [44]:
# ELIMINO DUPLICADOS POR SI ACASO EXISTEN
df_copy = df_copy.drop_duplicates()

# ELIMINO ESTAS TRES COLUMNAS PORQUE NO SON RELEVANTES PARA MI ANÁLISIS
df_copy = df_copy.drop(columns = ["Birth", "Death", "Skills"])

In [45]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140 entries, 0 to 139
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Id            140 non-null    int64 
 1   Name          140 non-null    object
 2   Gender        139 non-null    object
 3   Job           121 non-null    object
 4   House         101 non-null    object
 5   Wand          132 non-null    object
 6   Patronus      123 non-null    object
 7   Species       140 non-null    object
 8   Blood status  123 non-null    object
 9   Hair colour   123 non-null    object
 10  Eye colour    86 non-null     object
 11  Loyalty       89 non-null     object
dtypes: int64(1), object(11)
memory usage: 13.3+ KB


Primero vamos a limpiar las columnas House, Eye_Colour, Hair_colour y Species (De momento sin tocar los NaN)

In [46]:
# FUNCIÓN PARA LIMPIAR LAS COLUMNAS SPECIES, HOUSE, HAIR_COLOUR Y EYE_COLOUR
df_copy = fc.map_dataframe(df_copy)

Ahora reemplazamos los NaN por:


In [47]:
# MOSTRAMOS LOS VALORES ÚNICOS ANTES Y DESPUÉS DE LIMPIAR
print("Antes de limpiar:")
print(df_orig[["House", "Species", "Hair colour", "Eye colour"]].nunique())

print("\n\n", "Después de limpiar:")
print(df_copy[["House", "Species", "Hair colour", "Eye colour"]].nunique())

Antes de limpiar:
House           6
Species        10
Hair colour    36
Eye colour     25
dtype: int64


 Después de limpiar:
House           6
Species         6
Hair colour    10
Eye colour      8
dtype: int64


Ahora obtenemos los valores absolutos y relativos de estas 4 columnas limpiadas

In [None]:
abs_values_house = df_copy['House'].value_counts()
rel_values_house = df_copy['House'].value_counts(normalize = True)

abs_values_species = df_copy['Species'].value_counts()
rel_values_species = df_copy['Species'].value_counts(normalize = True)

abs_values_eye_colour = df_copy['Eye colour'].value_counts()
rel_values_eye_colour = df_copy['Eye colour'].value_counts(normalize = True)

abs_values__hair_colour = df_copy['Hair colour'].value_counts()
rel_values__hair_colour = df_copy['Hair colour'].value_counts(normalize = True)

In [None]:
print(abs_values_house)
print(rel_values_house)

In [None]:
print(abs_values_species)
print(rel_values_species)

In [None]:
print(abs_values_eye_colour)
print(rel_values_eye_colour)

In [None]:
print(abs_values__hair_colour)
print(rel_values__hair_colour)

Limpiamos la columna Loyalty (De momento sin tocar los NaN)

Primero vamos a hacer un value_counts() para ver la distribución de esta columna

In [48]:
df_copy["Loyalty"].value_counts(dropna = False)

Loyalty
NaN                                                                                                         51
Order of the Phoenix                                                                                        16
Dumbledore's Army |Hogwarts School of Witchcraft and Wizardry                                               14
Lord Voldemort  | Death Eaters                                                                              12
Original Order of the Phoenix                                                                                8
Hogwarts School of Witchcraft and Wizardry                                                                   8
Dumbledore's Army | Order of the Phoenix | Hogwarts School of Witchcraft and Wizardry                        8
Dumbledore's Army                                                                                            6
Minister of Magic                                                                                       

Aplicamos la función de categorize_values() a la columna 'Loyalty'

In [None]:
df_copy["Loyalty"] = df_copy['Loyalty'].apply(lambda x: fc.categorize_values(x, fc.loyalty_mapping))


Volvemos a hacer un value_counts() para ver cómo ha quedado

In [None]:
df_copy["Loyalty"].value_counts(dropna = False)

Limpiamos los NaN

Obtenemos los valores absolutos y relativos de 'Loyalty'

In [None]:
# OBTENEMOS LOS VALORES ABSOLUTOS Y RELATIVOS DE LA COLUMNA
abs_values_loyalty = df_copy['Loyalty'].value_counts()
rel_values_loyalty = df_copy['Loyalty'].value_counts(normalize = True)

In [None]:
print((abs_values_loyalty))

Loyalty
NaN                                          51
[Hogwarts]                                   30
[Order of the Phoenix]                       24
[Death Eaters]                               14
[Hogwarts, Order of the Phoenix]             11
[Others]                                      5
[Others, Order of the Phoenix]                2
[Others, Hogwarts, Order of the Phoenix]      1
[Ministry of Magic]                           1
[Ministry of Magic, Order of the Phoenix]     1
Name: count, dtype: int64

Cómo la columna 'Loyalty' contiene listas de valores, vamos a hacer una copia de este df para luego poder aplicar el método explode( ) y poder visualizar las posibles relaciones de esa columna con otras.

In [None]:
#df_copy_exploded = df_copy.explode("Loyalty")

In [None]:
# POSIBLE CÓDIGO PARA VISUALIZAR LA COLUMNA 'LOYALTY' JUNTO A OTRAS
#sns.countplot(data = df_copy_exploded, x = 'Categoria1', hue = 'Categoria2')
#plt.title("Relación entre Categoría 1 y 2")
#plt.show()

In [None]:
# POSIBLE CÓDIGO PARA VISUALIZAR LA COLUMNA 'LOYALTY' JUNTO A OTRAS
#heatmap_data = df_exploded.value_counts(['Categoria1', 'Categoria2']).unstack(fill_value=0)

#sns.heatmap(heatmap_data, annot=True, cmap="coolwarm", cbar=True)
#plt.title("Frecuencias entre categorías")
#plt.ylabel("Categoría 1")
#plt.xlabel("Categoría 2")
#plt.show()

## Análisis univariante

## Análisis bivariante

## Análisis multivariante