In [None]:
import pandas as pd
import warnings

warnings.filterwarnings('ignore') # Ignora los mensajes de error.

Voy a trabajar con un dataset del ministerio de educación de matriculaciones de Registros generales por comunidad y matriculaciones de necesidades especiales.

De todas las discapacidades que se muestran, me centraré sólo en las neurológicas, que son discapacidad Intelectual, trastornos del espectro del autismo, y trastornos graves de conducta.

Voy a definir cada una de ellas, para que quede claro:

Discapacidad intelectual: implica limitaciones en el funcionamiento mental y adaptativo. Puede afectar la comunicación, el aprendizaje y la toma de decisiones. Con apoyo adecuado, las personas con esta condición pueden llevar vidas plenas y contribuir a la sociedad. La inclusión y el respeto son fundamentales para su bienestar.

Trastornos del aspectro autismo: afectan la comunicación, interacción social y comportamiento. Con apoyo adecuado, las personas con TEA pueden llevar vidas plenas. Aceptación y comprensión son clave.

Trastornos gaves de conducta: implican comportamientos desafiantes y problemáticos que pueden poner en peligro la seguridad de la persona o de los demás. Requieren atención especializada y apoyo para mejorar la calidad de vida. Son patrones persistentes de comportamiento desafiante y problemático que pueden incluir agresión, conducta antisocial, comportamientos autolesivos u otros comportamientos que ponen en peligro la seguridad de la persona o de los demás.

Me encuetro con dos dataset para cada año y voy a unir todos los datasets con MERGE en uno. El rango de cursos lectivos que voy a trabajar son de 5 años, del 2017 al 2022.

In [None]:
# Descargo archivo RG 2021-2022 
RG_21_22 = pd.read_csv("RG_21_22_CSV.csv", sep='\t', encoding='latin1')
RG_21_22

Para tener los datos de cada dataset ordenados, voy a tener que crear una columna que se llame Curso y añadir el año del curso de finalización

In [None]:
# Añadir una nueva columna llamada 'Año' con el valor '2022' Realmente se refiere al Curso 
RG_21_22['Año'] = '2022'
# Mover la columna a la posición 2. 
RG_21_22.insert(2, 'Año',RG_21_22.pop('Año'))

También veo que tengo que ordenar los datos de todos los datasets, en el Tipo de plazas. Es decir, tengo que crear una columna llamada Tipo de plaza, y le asigno el registro de Ordinaria o Especial. La diferencia de cada plaza es la siguiente:

* Ordinaria: una vacante disponible en una institución educativa, ya sea en un nivel escolar o universitario, que no está reservada para un programa específico o para estudiantes con necesidades especiales.

* Especial: una vacante o espacio reservado para un programa educativo específico. Por ejemplo, en el caso de la educación especial, una "plaza especial" podría ser una vacante destinada a un estudiante con necesidades educativas especiales que requiere apoyo adicional o servicios personalizados.

In [None]:
# Añadir una nueva columna llamada "Plaza" con registros "Ordinaria" en la posición 3
RG_21_22.insert(loc=3, column='Plaza', value='Ordinarias')


De todos los datasets, voy a eliminar las columnas de 'Titularidad/financiación del centro' y también 'Enseñanza'. Ya que el dato que me proporciona no es relevante para mi estudio.

In [None]:
# Eliminar la columna 'Titularidad/financiación del centro'
RG_21_22 = RG_21_22.drop('Titularidad/financiación del centro', axis=1)

# Eliminar la columna 'Enseñanza'
RG_21_22 = RG_21_22.drop('Enseñanza', axis=1)

In [None]:
NESE_21_22 = pd.read_csv("NESE_21_22_CSV1.csv", sep='\t', encoding='latin1')

# Añadir una nueva columna llamada 'Año' con el valor '2022' Realmente se refiere al Curso 
NESE_21_22['Año'] = '2022'

# Mover la columna a la posición 2. 
NESE_21_22.insert(2, 'Año',NESE_21_22.pop('Año'))

# Añadir una nueva columna llamada "Plaza" con registros "Ordinarios" en la posición 3
NESE_21_22.insert(loc=3, column='Plaza', value='Especiales')

# Eliminar la columna 'Titularidad'
NESE_21_22 = NESE_21_22.drop('Titularidad', axis=1)

Empiezo a unir los datasets con MERGE, y en la columna de Discapacidad, le asigno el valor 0 a los registros que no tienen valores, ya que están considerados como plazas sin discapacidad. Después más adelante, modifico el valor 0 por No (de No discapacidad).

In [None]:
import numpy as np
# Copiar los DataFrames originales
RG_21_22_copy = RG_21_22.copy()
NESE_21_22_copy = NESE_21_22.copy()

# Unir los DataFrames por las columnas especificadas
Plazas_21_22 = pd.merge(RG_21_22_copy, NESE_21_22_copy, on=['Comunidad autónoma/provincia', 'Año', 'Plaza', 'Sexo','Total'], how='outer')

# Rellenar los valores NaN con ceros
Plazas_21_22 = Plazas_21_22.fillna(0)

In [None]:
# Cambio los valores de 0 en la columna de discapacidad por NO. 
Plazas_21_22['Discapacidad'] = Plazas_21_22['Discapacidad'].replace(0, 'No')

In [None]:
# Descargo archivo RG 2020-2021 
RG_20_21 = pd.read_csv("RG_20_21.csv", sep='\t', encoding='latin1')

# Añadir una nueva columna llamada 'Año' con el valor '2022' Realmente se refiere al Curso 
RG_20_21['Año'] = '2021'

# Mover la columna a la posición 2. 
RG_20_21.insert(2, 'Año',RG_20_21.pop('Año'))

# Añadir una nueva columna llamada "Plaza" con registros "Ordinaria" en la posición 3
RG_20_21.insert(loc=3, column='Plaza', value='Ordinarias')

# Eliminar la columna 'Titularidad/financiación del centro'
RG_20_21 = RG_20_21.drop('Titularidad/financiación del centro', axis=1)

# Eliminar la columna 'Enseñanza'
RG_20_21 = RG_20_21.drop('Enseñanza', axis=1)

In [None]:
NESE_20_21 = pd.read_csv("NESE_20_21.csv", sep=';', encoding='latin1')

# Añadir una nueva columna llamada 'Año' con el valor '2021' Realmente se refiere al Curso 
NESE_20_21['Año'] = '2021'

# Mover la columna a la posición 2. 
NESE_20_21.insert(2, 'Año',NESE_20_21.pop('Año'))

# Añadir una nueva columna llamada "Plaza" con registros "Especial" en la posición 3
NESE_20_21.insert(loc=3, column='Plaza', value='Especiales')

# Eliminar la columna 'Titularidad'
NESE_20_21 = NESE_20_21.drop('Titularidad', axis=1)

In [None]:
# Copiar los DataFrames originales
RG_20_21_copy = RG_20_21.copy()
NESE_20_21_copy = NESE_20_21.copy()

# Unir los DataFrames por las columnas Comunidad autónoma, Año, Plaza, Sexo y Total.
Plazas_20_21 = pd.merge(RG_20_21_copy, NESE_20_21_copy, on=['Comunidad autónoma/provincia', 'Año', 'Plaza', 'Sexo', 'Total'], how='outer')

# Rellenar los valores NaN con ceros
Plazas_20_21 = Plazas_20_21.fillna(0)

# Cambiar los valores de 0 en la columna de discapacidad por 'No'
Plazas_20_21['Discapacidad'] = Plazas_20_21['Discapacidad'].replace(0, 'No')

# Mostrar el DataFrame resultante
Plazas_20_21

In [None]:
# Copiar los DataFrames originales
Plazas_21_22_copy = Plazas_21_22.copy()
Plazas_20_21_copy = Plazas_20_21.copy()

# Unir los DataFrames por las columnas Comunidad autónoma, Año, Plaza, Sexo, Total, Discapacidad
Plazas = pd.merge(Plazas_21_22_copy, Plazas_20_21_copy, on=['Comunidad autónoma/provincia', 'Año', 'Plaza', 'Sexo', 'Discapacidad', 'Total'], how='outer')

# Mover la columna discapacidad a la posición 3. 
Plazas.insert(3, 'Discapacidad',Plazas.pop('Discapacidad'))

# Mover la columna año a la posición 0. 
Plazas.insert(0, 'Año',Plazas.pop('Año'))

In [None]:
# Descargo archivo RG 2019-2020 
RG_19_20 = pd.read_csv("RG_19_20.csv", sep='\t', encoding='latin1')

# Añadir una nueva columna llamada 'Año' con el valor '2020' Realmente se refiere al Curso 
RG_19_20['Año'] = '2020'

# Mover la columna a la posición 2. 
RG_19_20.insert(2, 'Año',RG_19_20.pop('Año'))

# Añadir una nueva columna llamada "Plaza" con registros "Ordinaria" en la posición 3
RG_19_20.insert(loc=3, column='Plaza', value='Ordinarias')

# Eliminar la columna 'Titularidad/financiación del centro'
RG_19_20 = RG_19_20.drop('Titularidad/financiación del centro', axis=1)

# Eliminar la columna 'Enseñanza'
RG_19_20 = RG_19_20.drop('Enseñanza', axis=1)

In [None]:
NESE_19_20 = pd.read_csv("NESE_19_20.csv", sep='\t', encoding='latin1')

# Añadir una nueva columna llamada 'Año' con el valor '2021' Realmente se refiere al Curso 
NESE_19_20['Año'] = '2020'

# Mover la columna a la posición 2. 
NESE_19_20.insert(2, 'Año',NESE_19_20.pop('Año'))

# Añadir una nueva columna llamada "Plaza" con registros "Especial" en la posición 3
NESE_19_20.insert(loc=3, column='Plaza', value='Especiales')

# Eliminar la columna 'Titularidad'
NESE_19_20 = NESE_19_20.drop('Titularidad', axis=1)

In [None]:
# Copiar los DataFrames originales
RG_19_20_copy = RG_19_20.copy()
NESE_19_20_copy = NESE_19_20.copy()

# Unir los DataFrames por las columnas Comunidad autónoma, Año, Plaza, Sexo y Total
Plazas_19_20 = pd.merge(RG_19_20_copy, NESE_19_20_copy , on=['Comunidad autónoma/provincia', 'Año', 'Plaza', 'Sexo', 'Total'], how='outer')

# Rellenar los valores NaN con ceros
Plazas_19_20 = Plazas_19_20.fillna(0)

# Cambio los valores de 0 en la columna de discapacidad por 'No'
Plazas_19_20['Discapacidad'] = Plazas_19_20['Discapacidad'].replace(0, 'No')

In [None]:
# Hacer copias de los DataFrames originales
Plazas_copy = Plazas.copy()
Plazas_19_20_copy = Plazas_19_20.copy()

# Unir los DataFrames de los años 2019 y 2020 por las columnas Comunidad autónoma, Año, Plaza, Sexo, Total, Discapacidad
Plazas = pd.merge(Plazas_copy, Plazas_19_20_copy, on=['Comunidad autónoma/provincia', 'Año', 'Plaza', 'Sexo', 'Discapacidad', 'Total'], how='outer')

# Mostrar el DataFrame resultante
Plazas

In [None]:
# Descargo archivo RG 2018-2019 
RG_18_19 = pd.read_csv("RG_18_19.csv", sep='\t', encoding='latin1')

# Añadir una nueva columna llamada 'Año' con el valor '2020' Realmente se refiere al Curso 
RG_18_19['Año'] = '2019'

# Mover la columna a la posición 2. 
RG_18_19.insert(2, 'Año',RG_18_19.pop('Año'))

# Añadir una nueva columna llamada "Plaza" con registros "Ordinaria" en la posición 3
RG_18_19.insert(loc=3, column='Plaza', value='Ordinarias')

# Eliminar la columna 'Titularidad/financiación del centro'
RG_18_19 = RG_18_19.drop('Titularidad/financiación del centro', axis=1)

# Eliminar la columna 'Enseñanza'
RG_18_19 = RG_18_19.drop('Enseñanza', axis=1)

In [None]:
NESE_18_19 = pd.read_csv("NESE_18_19.csv", sep='\t', encoding='latin1')

# Añadir una nueva columna llamada 'Año' con el valor '2021' Realmente se refiere al Curso 
NESE_18_19['Año'] = '2019'

# Mover la columna a la posición 2. 
NESE_18_19.insert(2, 'Año',NESE_18_19.pop('Año'))

# Añadir una nueva columna llamada "Plaza" con registros "Especial" en la posición 3
NESE_18_19.insert(loc=3, column='Plaza', value='Especiales')

# Eliminar la columna 'Titularidad'
NESE_18_19 = NESE_18_19.drop('Titularidad', axis=1)

In [None]:
# Hacer copias de los DataFrames originales
RG_18_19_copy = RG_18_19.copy()
NESE_18_19_copy = NESE_18_19.copy()

# Unir los DataFrames por las columnas Comunidad autónoma, Año, Plaza, Sexo y Total
Plazas_18_19 = pd.merge(RG_18_19_copy, NESE_18_19_copy, on=['Comunidad autónoma/provincia', 'Año', 'Plaza', 'Sexo', 'Total'], how='outer')

# Rellenar los valores NaN con ceros
Plazas_18_19 = Plazas_18_19.fillna(0)

# Cambiar los valores de 0 en la columna de discapacidad por 'No'
Plazas_18_19['Discapacidad'] = Plazas_18_19['Discapacidad'].replace(0, 'No')

# Mostrar el DataFrame resultante
Plazas_18_19

In [None]:
# Hacer copia del DataFrame Plazas_18_19
Plazas_18_19_copy = Plazas_18_19.copy()

# Unir los DataFrames por las columnas Comunidad autónoma, Año, Plaza, Sexo, Discapacidad y Total
Plazas = pd.merge(Plazas, Plazas_18_19_copy, on=['Comunidad autónoma/provincia', 'Año', 'Plaza', 'Sexo', 'Discapacidad', 'Total'], how='outer')

In [None]:
# Descargo archivo RG 2017-2018 
RG_17_18 = pd.read_csv("RG_17_18.csv", sep='\t', encoding='latin1')

# Añadir una nueva columna llamada 'Año' con el valor '2020' Realmente se refiere al Curso 
RG_17_18['Año'] = '2018'

# Mover la columna a la posición 2. 
RG_17_18.insert(2, 'Año',RG_17_18.pop('Año'))

# Añadir una nueva columna llamada "Plaza" con registros "Ordinaria" en la posición 3
RG_17_18.insert(loc=3, column='Plaza', value='Ordinarias')

# Eliminar la columna 'Titularidad/financiación del centro'
RG_17_18 = RG_17_18.drop('Titularidad/financiación del centro', axis=1)

# Eliminar la columna 'Enseñanza'
RG_17_18 = RG_17_18.drop('Enseñanza', axis=1)

In [None]:
NESE_17_18 = pd.read_csv("NESE_17_18.csv", sep='\t', encoding='latin1')

# Añadir una nueva columna llamada 'Año' con el valor '2021' Realmente se refiere al Curso 
NESE_17_18['Año'] = '2018'

# Mover la columna a la posición 2. 
NESE_17_18.insert(2, 'Año',NESE_17_18.pop('Año'))

# Añadir una nueva columna llamada "Plaza" con registros "Especial" en la posición 3
NESE_17_18.insert(loc=3, column='Plaza', value='Especiales')

# Eliminar la columna 'Titularidad'
NESE_17_18 = NESE_17_18.drop('Titularidad', axis=1)

In [None]:
# Hacer copia del DataFrame original
RG_17_18_copy = RG_17_18.copy()
NESE_17_18_copy = NESE_17_18.copy()

# Unir los DataFrames por las columnas Comunidad autónoma, Año, Plaza, Sexo y Total
Plazas_17_18 = pd.merge(RG_17_18_copy, NESE_17_18, on=['Comunidad autónoma/provincia', 'Año', 'Plaza', 'Sexo', 'Total'], how='outer')

# Rellenar los valores NaN con ceros
Plazas_17_18 =Plazas_17_18.fillna(0)

# Cambio los valores de 0 en la columna de discapacidad por NO. 
Plazas_17_18['Discapacidad'] = Plazas_17_18['Discapacidad'].replace(0, 'No')

In [None]:
# Hacer copia del DataFrame original
Plazas_copy = Plazas.copy()
Plazas_17_18_copy = Plazas_17_18.copy()
# Unir los DataFrames de Plazas con 2019 por las columnas Comunidad autónoma, Año, Plaza, Sexo, Total, Discapacidad.
Plazas = pd.merge(Plazas_copy, Plazas_17_18 , on=['Comunidad autónoma/provincia', 'Año', 'Plaza', 'Sexo','Discapacidad','Total'], how='outer')
# Cambiar el nombre de la columna 'Año', por 'Año finalización curso'.
Plazas.rename(columns={'Año': 'Año finalización curso'}, inplace=True)

# Cambiar el nombre de la columna Total, por 'Total plazas matriculaciones'.
Plazas.rename(columns={'Total': 'Total plazas matriculaciones'}, inplace=True)

# Cambiar el nombre de la columna 'Plaza', por 'Tipo de plazas'.
Plazas.rename(columns={'Plaza': 'Tipo de plazas'}, inplace=True)

Plazas 

In [None]:
Plazas = Plazas.copy()

YA TENGO LA BASE DE DATOS CREADAAAAAAA!!!!!

Vale, pues ahora me encuentro que los datos en la columna de Comunidad autónoma/provincia, tienen diferentes valores que no me lo ha registrado correctamente. Así que verifico los valores únicos de la columna y visualizo los errores. De ahí, aplico str.strip para eliminar los espacios en blanco no deseados y así limpiar los registros de la columna.

In [None]:
valores_unicos_comunidad = Plazas['Comunidad autónoma/provincia'].unique()
valores_unicos_comunidad

In [None]:
# Filtrar las filas donde la "Comunidad autónoma/provincia" sea Barcelona
df_barcelona = Plazas[Plazas['Tipo de plazas'] == 'Especiales']

In [None]:
df_barcelona

Me encunetro que algún registro de la misma columna Comunidad, está duplicado. Entonces, verifico los casos que hay más de cada uno de ellos. Así que, el tenga más, pues es la descripción que aplico para el resto. De esta manera todos los mismos registros se unificarán y no me causarán errores.

In [None]:
# Limpiar los valores de la columna 'Comunidad autónoma/provincia' eliminando los espacios en blanco no deseados
Plazas['Comunidad autónoma/provincia'] = Plazas['Comunidad autónoma/provincia'].str.strip()

# Obtener los registros únicos de la columna "Comunidad autónoma"
comunidades_autonomas = Plazas['Comunidad autónoma/provincia'].unique()

# Mostrar los registros únicos
print(comunidades_autonomas)

In [None]:
# Contar el número de registros para cada entrada de "Navarra"
conteo_navarra_1 = len(Plazas[Plazas['Comunidad autónoma/provincia'] == '15 NAVARRA, COMUNIDAD FORAL DE'])
conteo_navarra_2 = len(Plazas[Plazas['Comunidad autónoma/provincia'] == '15 NAVARRA (Comunidad Foral de) (3)'])

# Mostrar los conteos
print("Número de registros para '15 NAVARRA, COMUNIDAD FORAL DE':", conteo_navarra_1)
print("Número de registros para '15 NAVARRA (Comunidad Foral de) (3)':", conteo_navarra_2)

In [None]:
# Actualizar el nombre de '15 NAVARRA (Comunidad Foral de) (3)' a '15 NAVARRA, COMUNIDAD FORAL DE'
Plazas.loc[Plazas['Comunidad autónoma/provincia'] == '15 NAVARRA (Comunidad Foral de) (3)', 'Comunidad autónoma/provincia'] = '15 NAVARRA, COMUNIDAD FORAL DE'

# Obtener los registros únicos de la columna "Comunidad autónoma"
comunidades_autonomas = Plazas['Comunidad autónoma/provincia'].unique()

# Mostrar los registros únicos
print(comunidades_autonomas)

Me encuentro también que hasta 2021 se pasa a llamar trastorno del espectro autismo, pero anteriormente se llamaba Trastornos generalizados del desarrollo. La definición de Trastornos generalizados del desarrollo, dice que es:

Los trastornos generalizados del desarrollo (TGD) son un grupo de trastornos del neurodesarrollo que afectan la capacidad del individuo para interactuar y comunicarse con los demás, así como para comprender y adaptarse al entorno social que lo rodea. Estos trastornos suelen manifestarse en la infancia temprana y persistir a lo largo de toda la vida de la persona.dad de vida.

Algunos ejemplos de trastornos generalizados del desarrollo incluyen:

1. Trastorno del espectro autista (TEA): Es un trastorno del desarrollo que se caracteriza por déficits en la comunicación social y patrones de comportamiento repetitivos o restrictivos.

2. Trastorno de Asperger: Anteriormente se consideraba una condición separada, pero ahora se considera parte del espectro autista. Se caracteriza por dificultades en la interacción social y patrones de comportamiento repetitivos, pero generalmente no hay retrasos significativos en el desarrollo del lenguaje o cognitivo.

3. Trastorno desintegrativo infantil: Es un trastorno poco común que implica la pérdida de habilidades previamente adquiridas, como el lenguaje, las habilidades sociales y motoras, después de un período de desarrollo normal.

4. Trastorno generalizado del desarrollo no especificado (PDD-NOS): Se utiliza cuando una persona tiene algunos síntomas de los trastornos del espectro autista pero no cumple con todos los criterios para un diagnóstico específico.

Estos trastornos pueden manifestarse de diversas maneras y con diferentes grados de gravedad, desde formas leves hasta formas más graves que afectan significativamente la vida diaria y la capacidad de funcionamiento de la persona. El diagnóstico y tratamiento tempranos son importantes para ayudar a las personas con trastornos generalizados del desarrollo a maximizar su potencial y mejorar su cali

Básicamente se relacionaba a lo que ahora se le llama Autismo.

Así que también hago un cambio en des descripción de la discapacidad, para que no me lo separe y lo intergre todo conjuntamente. dad de vida.

In [None]:
# Obtener los registros únicos de la columna "Discapacidad"
Discapacidad = Plazas['Discapacidad'].unique()

# Mostrar los registros únicos
print(Discapacidad)

In [None]:
# Actualizar el nombre de 'Trastornos graves de conducta' a 'Trastornos graves de conducta/personalidad'
Plazas.loc[Plazas['Discapacidad'] == 'Trastornos graves de conducta', 'Discapacidad'] = 'Trastornos graves de conducta/personalidad'

# Actualizar el nombre de 'Trastornos generalizados del desarrollo' a 'Trastornos del espectro del autismo (2)'
Plazas.loc[Plazas['Discapacidad'] == 'Trastornos generalizados del desarrollo', 'Discapacidad'] = 'Trastornos del espectro del autismo (2)'

# Obtener los registros únicos de la columna "Comunidad autónoma"
Discapacidad = Plazas['Discapacidad'].unique()

# Mostrar los registros únicos
print(Discapacidad)

In [None]:
Plazas = Plazas.copy()

In [None]:
# Mover la columna 'Tipo de plazas' a la posición 2
nombre_columna = 'Tipo de plazas'
posicion_deseada = 1  # Posición basada en 0
columna_extraida = Plazas.pop(nombre_columna)  # Extraer la columna
Plazas.insert(posicion_deseada, nombre_columna, columna_extraida)
Plazas

In [None]:
Plazas = Plazas.copy()

In [None]:
Plazas.info()

La columna de 'Año de finalización curso' estaba como object y tiene que estar cambiada a 'int', para convertirlo en datos enteros. La columna de 'Total plazas matriculaciones también está mal considerada, ya que está como Float, números con parte entera y parte fraccional, realmente son número enteros. Así que también realizo el cambio a int.

Aquí me encunetro con otro error, los registros de la columna de Total plazas matriculaciones me está contabilizando el punto separador de miles, como si fuera una coma. Entonces me lo contabiliza como decimal. ¿Qúe pasa? pues que los datos no están bien. Así que tnego que quitar el punto. Pero además los números enteros como por ejemplo 70, me pone un punto al final 70. Entonces al quitar el (.) me transforma de 70 a 700 y ese valor tampoco es correcto. Entonces empiezo a trastear, hasta que consigo quitar el punto de todas, sin que ello me modifica las cifras.

In [None]:
print(Plazas['Total plazas matriculaciones'].unique())

In [None]:
# Define una función para eliminar los puntos de los miles en un número
def eliminar_puntos(numero):
    if isinstance(numero, str):
        return numero.replace('.', '')
    else:
        return numero

# Aplica la función a la columna 'Total plazas matriculaciones'
Plazas['Total plazas matriculaciones'] = Plazas['Total plazas matriculaciones'].apply(eliminar_puntos)

# Convierte la columna al tipo de datos adecuado (float)
Plazas['Total plazas matriculaciones'] = Plazas['Total plazas matriculaciones'].astype(float)

print(Plazas['Total plazas matriculaciones'].unique())

In [None]:
import re

def clean_value(x):
    # Utilizamos una expresión regular para encontrar los números decimales y eliminar los ceros adicionales
    cleaned_value = re.sub(r'(\d+)\.(\d+)', lambda match: f"{match.group(1)}.{match.group(2).rstrip('0').lstrip('0')}", x)
    # Eliminamos los puntos decimales de los números enteros y eliminamos los ceros adicionales
    cleaned_value = re.sub(r'\.(\d+)', lambda match: match.group(1).rstrip('0').lstrip('0'), cleaned_value)
    # Eliminamos los puntos finales que puedan quedar al final del número
    cleaned_value = cleaned_value.rstrip('.')
    return cleaned_value

Plazas['Total plazas matriculaciones'] = Plazas['Total plazas matriculaciones'].astype(str).apply(clean_value)

print(Plazas['Total plazas matriculaciones'].unique())

In [None]:
Plazas.info()

In [None]:
Plazas['Total plazas matriculaciones'] = Plazas['Total plazas matriculaciones'].astype('int64')

Plazas.info()

In [None]:
print(Plazas['Total plazas matriculaciones'].unique())

In [None]:
# Convertir la columna 'Año finalización curso' a tipo string
Plazas['Año finalización curso'] = Plazas['Año finalización curso'].astype(str)

Plazas.info()

In [None]:
print(Plazas['Año finalización curso'].dtype)

In [None]:
# Filtrar valores no numéricos en la columna 'Año finalización curso'
non_numeric_values = Plazas[~Plazas['Año finalización curso'].str.isnumeric()]['Año finalización curso']

# Imprimir los valores no numéricos
print(non_numeric_values)

In [None]:
print(Plazas['Año finalización curso'].unique())

In [None]:
Plazas['Año finalización curso'] = Plazas['Año finalización curso'].astype(int)

In [None]:
Plazas = Plazas.copy()
Plazas.info()

Finalmente lo he conseguido así que puedo hacer el cambio de dtype de los datos para que porfin ya estén correctos.

In [None]:
# Filtrar las filas correspondientes a la Comunidad autónoma/provincia 09 CATALUÑA y tipo de plazas especiales
plazas_especiales_cataluna = Plazas[(Plazas['Comunidad autónoma/provincia'] == '05 CANARIAS') & 
                                    (Plazas['Tipo de plazas'] == 'Especiales')]

# Filtrar los datos solo para el año 2022
df_2022 = Plazas[Plazas['Año finalización curso'] == 2022]

# Mostrar todos los datos de las columnas para el año 2022
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    df_2022

In [None]:
df_2022

Pues No, todavía no están bien todos los datos.
Cuando cargué los datasets de Registros generales, me dí cuenta de que el número de plazas matriculadas por Comunidad, no corresponde con lo que quiero trabajar. Es decir, cuando se habla de Registros Genereales, se incluyen todas las plazas especiales más las plazas Ordinarias, es decir el computo de ambas. Mi interés por diferenciar el total de plazas Ordinarias y Especiales, principalmente es para saber que porcentaje de plazas especiales se asignan por comunidad en función de las plazas Ordinales. Y de este modo poder saber si realmente existe un porcentaje mayor o más de lo previsto por Comuindad. Así que lo que realizo ahora simplemnete es una modificación de los registros de las plazas Ordinales de Hombres y Mujeres de cada Comunidad autónoma por cada año, que en este caso son 5 años, sin modificar los registros de las plazas Especiales.

In [None]:
# Diccionario de plazas ordinarias de hombres por comunidad autónoma
plazas_hombres = {
    '01 ANDALUCÍA': 798099,
    '02 ARAGÓN': 112841,
    '03 ASTURIAS, PRINCIPADO DE': 66721,
    '04 BALEARS, ILLES': 97068,
    '05 CANARIAS': 165638,
    '06 CANTABRIA': 46862,
    '07 CASTILLA Y LEÓN': 171251,
    '08 CASTILLA-LA MANCHA': 182962,
    '09 CATALUÑA': 694616,
    'Barcelona': 502282,
    'Girona': 68615,
    'Lleida': 49595,
    'Tarragona': 74124,
    '10 COMUNITAT VALENCIANA': 449753,
    '11 EXTREMADURA': 87310,
    '12 GALICIA': 196730,
    '13 MADRID, COMUNIDAD DE': 617463,
    '14 MURCIA, REGIÓN DE': 150790,
    '15 NAVARRA (Comunidad Foral de) (3)': 59530,
    '16 PAÍS VASCO': 189047,
    '17 RIOJA, LA': 28670,
    '18 CEUTA': 9628,
    '19 MELILLA': 10360
}

# Diccionario de plazas ordinarias de mujeres por comunidad autónoma
plazas_mujeres = {
    '01 ANDALUCÍA': 770165,
    '02 ARAGÓN': 105110,
    '03 ASTURIAS, PRINCIPADO DE': 63932,
    '04 BALEARS, ILLES': 91797,
    '05 CANARIAS': 163993,
    '06 CANTABRIA': 45060,
    '07 CASTILLA Y LEÓN': 161263,
    '08 CASTILLA-LA MANCHA': 173693,
    '09 CATALUÑA': 681427,
    'Barcelona': 483460,
    'Girona': 65570,
    'Lleida': 62730,
    'Tarragona': 69667,
    '10 COMUNITAT VALENCIANA': 424172,
    '11 EXTREMADURA': 82402,
    '12 GALICIA': 189185,
    '13 MADRID, COMUNIDAD DE': 590850,
    '14 MURCIA, REGIÓN DE': 138973,
    '15 NAVARRA (Comunidad Foral de) (3)': 55799,
    '16 PAÍS VASCO': 172326,
    '17 RIOJA, LA': 26909,
    '18 CEUTA': 9390,
    '19 MELILLA': 10000
}
# Actualizar los valores de 'Total plazas matriculaciones' en el DataFrame para hombres y mujeres
for index, row in Plazas.iterrows():
    if (row['Año finalización curso'] == 2022 and 
        row['Tipo de plazas'] == 'Ordinarias' and 
        row['Discapacidad'] == 'No'):
        
        comunidad = row['Comunidad autónoma/provincia']
        sexo = row['Sexo']
        
        if comunidad in plazas_hombres and sexo == 'Hombres':
            Plazas.at[index, 'Total plazas matriculaciones'] = plazas_hombres[comunidad]
        elif comunidad in plazas_mujeres and sexo == 'Mujeres':
            Plazas.at[index, 'Total plazas matriculaciones'] = plazas_mujeres[comunidad]

In [None]:
# Diccionario de plazas ordinarias de hombres por comunidad autónoma para el año 2021
plazas_hombres_2021 = {
    '01 ANDALUCÍA': 796023,
    '02 ARAGÓN': 112429,
    '03 ASTURIAS, PRINCIPADO DE': 67709,
    '04 BALEARS, ILLES': 97377,
    '05 CANARIAS': 167624,
    '06 CANTABRIA': 47189,
    '07 CASTILLA Y LEÓN': 172827,
    '08 CASTILLA-LA MANCHA': 183092,
    '09 CATALUÑA': 691519,
    'Barcelona': 502786,
    'Girona': 68524,
    'Lleida': 46427,
    'Tarragona': 73782,
    '10 COMUNITAT VALENCIANA': 450421,
    '11 EXTREMADURA': 87560,
    '12 GALICIA': 197702,
    '13 MADRID, COMUNIDAD DE': 615405,
    '14 MURCIA, REGIÓN DE': 151271,
    '15 NAVARRA (Comunidad Foral de) (3)': 57101,
    '16 PAÍS VASCO': 190449,
    '17 RIOJA, LA': 28078,
    '18 CEUTA': 9913,
    '19 MELILLA': 10497
}

# Diccionario de plazas ordinarias de mujeres por comunidad autónoma para el año 2021
plazas_mujeres_2021 = {
    '01 ANDALUCÍA': 767490,
    '02 ARAGÓN': 104425,
    '03 ASTURIAS, PRINCIPADO DE': 64760,
    '04 BALEARS, ILLES': 91303,
    '05 CANARIAS': 165040,
    '06 CANTABRIA': 45325,
    '07 CASTILLA Y LEÓN': 162787,
    '08 CASTILLA-LA MANCHA': 173449,
    '09 CATALUÑA': 671113,
    'Barcelona': 483266,
    'Girona': 65520,
    'Lleida': 53338,
    'Tarragona': 68989,
    '10 COMUNITAT VALENCIANA': 424751,
    '11 EXTREMADURA': 83288,
    '12 GALICIA': 190007,
    '13 MADRID, COMUNIDAD DE': 587995,
    '14 MURCIA, REGIÓN DE': 138881,
    '15 NAVARRA (Comunidad Foral de) (3)': 54739,
    '16 PAÍS VASCO': 174190,
    '17 RIOJA, LA': 26542,
    '18 CEUTA': 9650,
    '19 MELILLA': 10087
}
# Actualizar los valores de 'Total plazas matriculaciones' en el DataFrame para hombres y mujeres
for index, row in Plazas.iterrows():
    if (row['Año finalización curso'] == 2021 and 
        row['Tipo de plazas'] == 'Ordinarias' and 
        row['Discapacidad'] == 'No'):
        
        comunidad = row['Comunidad autónoma/provincia']
        sexo = row['Sexo']
        
        if comunidad in plazas_hombres and sexo == 'Hombres':
            Plazas.at[index, 'Total plazas matriculaciones'] = plazas_hombres_2021[comunidad]
        elif comunidad in plazas_mujeres and sexo == 'Mujeres':
            Plazas.at[index, 'Total plazas matriculaciones'] = plazas_mujeres_2021[comunidad]

In [None]:
# Diccionario de plazas ordinarias de hombres por comunidad autónoma para el año 2020
plazas_hombres_2020 = {
    '01 ANDALUCÍA': 830411,
    '02 ARAGÓN': 114943,
    '03 ASTURIAS, PRINCIPADO DE': 70750,
    '04 BALEARS, ILLES': 100617,
    '05 CANARIAS': 176822,
    '06 CANTABRIA': 48462,
    '07 CASTILLA Y LEÓN': 179734,
    '08 CASTILLA-LA MANCHA': 187861,
    '09 CATALUÑA': 711783,
    'Barcelona': 520398,
    'Girona': 70708,
    'Lleida': 44374,
    'Tarragona': 76303,
    '10 COMUNITAT VALENCIANA': 455708,
    '11 EXTREMADURA': 89974,
    '12 GALICIA': 210048,
    '13 MADRID, COMUNIDAD DE': 632698,
    '14 MURCIA, REGIÓN DE': 157148,
    '15 NAVARRA (Comunidad Foral de) (3)': 60723,
    '16 PAÍS VASCO': 198313,
    '17 RIOJA, LA': 28886,
    '18 CEUTA': 10455,
    '19 MELILLA': 11055
}

# Diccionario de plazas ordinarias de mujeres por comunidad autónoma para el año 2020
plazas_mujeres_2020 = {
    '01 ANDALUCÍA': 767490,
    '02 ARAGÓN': 104425,
    '03 ASTURIAS, PRINCIPADO DE': 64760,
    '04 BALEARS, ILLES': 91303,
    '05 CANARIAS': 165040,
    '06 CANTABRIA': 45325,
    '07 CASTILLA Y LEÓN': 162787,
    '08 CASTILLA-LA MANCHA': 173449,
    '09 CATALUÑA': 671113,
    'Barcelona': 483266,
    'Girona': 65520,
    'Lleida': 53338,
    'Tarragona': 68989,
    '10 COMUNITAT VALENCIANA': 424751,
    '11 EXTREMADURA': 83288,
    '12 GALICIA': 190007,
    '13 MADRID, COMUNIDAD DE': 587995,
    '14 MURCIA, REGIÓN DE': 138881,
    '15 NAVARRA (Comunidad Foral de) (3)': 54739,
    '16 PAÍS VASCO': 174190,
    '17 RIOJA, LA': 26542,
    '18 CEUTA': 9650,
    '19 MELILLA': 10087
}
# Actualizar los valores de 'Total plazas matriculaciones' en el DataFrame para hombres y mujeres
for index, row in Plazas.iterrows():
    if (row['Año finalización curso'] == 2020 and 
        row['Tipo de plazas'] == 'Ordinarias' and 
        row['Discapacidad'] == 'No'):
        
        comunidad = row['Comunidad autónoma/provincia']
        sexo = row['Sexo']
        
        if comunidad in plazas_hombres and sexo == 'Hombres':
            Plazas.at[index, 'Total plazas matriculaciones'] = plazas_hombres_2020[comunidad]
        elif comunidad in plazas_mujeres and sexo == 'Mujeres':
            Plazas.at[index, 'Total plazas matriculaciones'] = plazas_mujeres_2020[comunidad]

In [None]:
# Diccionario de plazas ordinarias de hombres por comunidad autónoma para el año 2019
plazas_hombres_2019 = {
    '01 ANDALUCÍA': 824514,
    '02 ARAGÓN': 113508,
    '03 ASTURIAS, PRINCIPADO DE': 70526,
    '04 BALEARS, ILLES': 98963,
    '05 CANARIAS': 176734,
    '06 CANTABRIA': 48154,
    '07 CASTILLA Y LEÓN': 179327,
    '08 CASTILLA-LA MANCHA': 186258,
    '09 CATALUÑA': 699442,
    'Barcelona': 512379,
    'Girona': 69694,
    'Lleida': 42084,
    'Tarragona': 75285,
    '10 COMUNITAT VALENCIANA': 449109,
    '11 EXTREMADURA': 90271,
    '12 GALICIA': 207997,
    '13 MADRID, COMUNIDAD DE': 620450,
    '14 MURCIA, REGIÓN DE': 153805,
    '15 NAVARRA (Comunidad Foral de) (3)': 59599,
    '16 PAÍS VASCO': 197765,
    '17 RIOJA, LA': 28205,
    '18 CEUTA': 10403,
    '19 MELILLA': 10837
}

# Diccionario de plazas ordinarias de mujeres por comunidad autónoma para el año 2019
plazas_mujeres_2019 = {
    '01 ANDALUCÍA': 778869,
    '02 ARAGÓN': 104966,
    '03 ASTURIAS, PRINCIPADO DE': 65704,
    '04 BALEARS, ILLES': 89463,
    '05 CANARIAS': 169406,
    '06 CANTABRIA': 45713,
    '07 CASTILLA Y LEÓN': 166431,
    '08 CASTILLA-LA MANCHA': 174450,
    '09 CATALUÑA': 662553,
    'Barcelona': 484360,
    'Girona': 65811,
    'Lleida': 42719,
    'Tarragona': 69663,
    '10 COMUNITAT VALENCIANA': 421178,
    '11 EXTREMADURA': 85525,
    '12 GALICIA': 193955,
    '13 MADRID, COMUNIDAD DE': 584850,
    '14 MURCIA, REGIÓN DE': 139251,
    '15 NAVARRA (Comunidad Foral de) (3)': 55412,
    '16 PAÍS VASCO': 177818,
    '17 RIOJA, LA': 26546,
    '18 CEUTA': 9948,
    '19 MELILLA': 10387
}
# Actualizar los valores de 'Total plazas matriculaciones' en el DataFrame para hombres y mujeres
for index, row in Plazas.iterrows():
    if (row['Año finalización curso'] == 2029 and 
        row['Tipo de plazas'] == 'Ordinarias' and 
        row['Discapacidad'] == 'No'):
        
        comunidad = row['Comunidad autónoma/provincia']
        sexo = row['Sexo']
        
        if comunidad in plazas_hombres and sexo == 'Hombres':
            Plazas.at[index, 'Total plazas matriculaciones'] = plazas_hombres_2019[comunidad]
        elif comunidad in plazas_mujeres and sexo == 'Mujeres':
            Plazas.at[index, 'Total plazas matriculaciones'] = plazas_mujeres_2019[comunidad]

In [None]:
# Diccionario de plazas ordinarias de hombres por comunidad autónoma para el año 2018
plazas_hombres_2018 = {
    '01 ANDALUCÍA': 825162,
    '02 ARAGÓN': 112815,
    '03 ASTURIAS, PRINCIPADO DE': 70608,
    '04 BALEARS, ILLES': 97340,
    '05 CANARIAS': 177948,
    '06 CANTABRIA': 48227,
    '07 CASTILLA Y LEÓN': 180888,
    '08 CASTILLA-LA MANCHA': 186527,
    '09 CATALUÑA': 693353,
    'Barcelona': 508574,
    'Girona': 68980,
    'Lleida': 41002,
    'Tarragona': 74797,
    '10 COMUNITAT VALENCIANA': 446971,
    '11 EXTREMADURA': 91648,
    '12 GALICIA': 207600,
    '13 MADRID, COMUNIDAD DE': 614646,
    '14 MURCIA, REGIÓN DE': 152661,
    '15 NAVARRA (Comunidad Foral de) (3)': 58726,
    '16 PAÍS VASCO': 197826,
    '17 RIOJA, LA': 27960,
    '18 CEUTA': 10321,
    '19 MELILLA': 10710
}

# Diccionario de plazas ordinarias de mujeres por comunidad autónoma para el año 2018
plazas_mujeres_2018 = {
    '01 ANDALUCÍA': 778009,
    '02 ARAGÓN': 104492,
    '03 ASTURIAS, PRINCIPADO DE': 65712,
    '04 BALEARS, ILLES': 87723,
    '05 CANARIAS': 170584,
    '06 CANTABRIA': 45719,
    '07 CASTILLA Y LEÓN': 167972,
    '08 CASTILLA-LA MANCHA': 174427,
    '09 CATALUÑA': 656537,
    'Barcelona': 481180,
    'Girona': 65355,
    'Lleida': 40534,
    'Tarragona': 69468,
    '10 COMUNITAT VALENCIANA': 418921,
    '11 EXTREMADURA': 86716,
    '12 GALICIA': 194134,
    '13 MADRID, COMUNIDAD DE': 579320,
    '14 MURCIA, REGIÓN DE': 139279,
    '15 NAVARRA (Comunidad Foral de) (3)': 54658,
    '16 PAÍS VASCO': 177691,
    '17 RIOJA, LA': 26505,
    '18 CEUTA': 9904,
    '19 MELILLA': 10103
}

# Actualizar los valores de 'Total plazas matriculaciones' en el DataFrame para hombres y mujeres
for index, row in Plazas.iterrows():
    if (row['Año finalización curso'] == 2018 and 
        row['Tipo de plazas'] == 'Ordinarias' and 
        row['Discapacidad'] == 'No'):
        
        comunidad = row['Comunidad autónoma/provincia']
        sexo = row['Sexo']
        
        if comunidad in plazas_hombres_2019 and sexo == 'Hombres':
            Plazas.at[index, 'Total plazas matriculaciones'] = plazas_hombres_2018[comunidad]
        elif comunidad in plazas_mujeres_2019 and sexo == 'Mujeres':
            Plazas.at[index, 'Total plazas matriculaciones'] = plazas_mujeres_2018[comunidad]

In [None]:
Plazas = Plazas.copy()
Plazas

Vale, los datos ya los tengo actualizados, he tenido que restar las plazas especiales por sexo a las plazas ordinarias, porque mostraba el total de plazas de matriculaciones incluyendo las discapacidades a trabajar.

In [None]:
Plazas.duplicated()

No exiten duplicados. Voy a mirar valores NAN.

In [None]:
Plazas.isna().sum()

Tampoco tenemos datos Nulos. Empezaríamos con datos estadísticos, gráficos, EDA

In [None]:
# Calculo de inicio estadísticas descriptivas. 
Plazas.describe().round()

Como ya dije al principio me encuentro con un dataframe con muchas columnas categoricas. En cuanto a numéricas una me indica el año y de ahí saco que la media es 2020, realmente no es muy relevante, ya que lo que principalmente me va a aportar esta columna es la evolución y tendencia a través de los registros. Pero la otra columna numérica, que es el Total de plazas matriculaciones, aquí si que del total de los datos registrados me dice que hay un total de 920 registros, la media de los datos es 49945, la mediana es 141171, el número min 0 y el máximo 830411 y el primer quartil es 28, el segundo 148, y el tercero 2130.

Para la limpieza y prepocesado de datos, me encuentro que los datos están bien, aunque en montar los datos he tardado mucho, ahora los datos están limpios. Así que ya puedo pasar al Análisi Exploratorio de Datos.

### EDA

Voy a empezar a visualizar los datos, que es lo que me tiene más intrigada.
Empezaré por ver Plazas Ordinarias asignadas por Comunidad del año 2022. Después pasaré a ver las plazas especiales, y por cada discapacidad.

## Visualización plazas ordinarias por Comunidad y Sexo, 2022¶


In [None]:
# Filtrar los datos para el año 2022 y tipo de plazas (ordinarias)
plazas_ordinarias_2022 = Plazas[(Plazas['Año finalización curso'] == 2022) & 
                                (Plazas['Tipo de plazas'] == 'Ordinarias') &
                                (~Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona']))]

# Agrupar por comunidad autónoma/provincia y sexo, luego sumar las plazas matriculaciones
plazas_ordinarias_2022_por_sexo = plazas_ordinarias_2022.groupby(['Comunidad autónoma/provincia', 'Sexo'])['Total plazas matriculaciones'].sum()

# Ordenar de más a menos plazas
plazas_ordinarias_2022_por_sexo_sorted = plazas_ordinarias_2022_por_sexo.sort_values(ascending=False)

# Mostrar el resultado
print(plazas_ordinarias_2022_por_sexo_sorted)

In [None]:
import matplotlib.pyplot as plt

# Sumar las plazas ordinarias por sexo y comunidad autónoma
plazas_ordinarias_2022_por_sexo_sum = plazas_ordinarias_2022.groupby(['Comunidad autónoma/provincia', 'Sexo'])['Total plazas matriculaciones'].sum().unstack()

# Calcular la suma total de plazas ordinarias por comunidad autónoma
plazas_ordinarias_2022_por_sexo_sum['Total'] = plazas_ordinarias_2022_por_sexo_sum.sum(axis=1)

# Ordenar los datos por el total de plazas ordinarias para hombres y mujeres
plazas_ordinarias_2022_por_sexo_sum_sorted = plazas_ordinarias_2022_por_sexo_sum.sort_values(by='Total', ascending=False)

# Eliminar la columna 'Total' ya que solo es un auxiliar para ordenar los datos
plazas_ordinarias_2022_por_sexo_sum_sorted.drop(columns='Total', inplace=True)

# Definir colores para hombres y mujeres
color_hombre = 'turquoise'
color_mujer = 'purple'

# Graficar el total de plazas ordinarias por comunidad autónoma y sexo para el año 2022 (ordenado)
plazas_ordinarias_2022_por_sexo_sum_sorted.plot(kind='bar', figsize=(12, 6), stacked=False, color=[color_hombre, color_mujer])

plt.title('Plazas Ordinarias por Comunidad Autónoma y Sexo (2022)')
plt.xlabel('Comunidad Autónoma/Provincia')
plt.ylabel('Total de Plazas Ordinarias')
plt.xticks(rotation=45, ha='right')
plt.legend(title='Sexo', labels=['Hombre', 'Mujer'])
plt.tight_layout()
plt.show()

En todas las comunidades autónomas vemos que existen más plazas asignadas en este caso Ordinarias, para los hombres. Importante destacar que las comunidades autónomas que más matriculación registra son:

- ANDALUCÍA
- CATALUÑA
- MADRID
- VALENCIA
- GALICIA
  
Pasamos a visualizas las plazas especiales...

## Visualización total plazas especiales por Comunidad y Sexo, 2022

In [None]:
# Filtrar los datos para el año 2022 y tipo de plazas (Especiales), excluyendo Barcelona, Tarragona, Lleida y Girona
plazas_especiales_2022_filtered = Plazas[(Plazas['Año finalización curso'] == 2022) & 
                                         (Plazas['Tipo de plazas'] == 'Especiales') & 
                                         (~Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona']))]

# Agrupar los datos por comunidad autónoma/provincia y sexo, y calcular el total de plazas matriculaciones para cada grupo
plazas_especiales_sexo_comunidad_2022 = plazas_especiales_2022_filtered.groupby(['Comunidad autónoma/provincia', 'Sexo'])['Total plazas matriculaciones'].sum()

# Mostrar los datos agrupados por comunidad autónoma/provincia y sexo
print(plazas_especiales_sexo_comunidad_2022)

In [None]:
## Definir colores para hombres y mujeres
color_hombre = 'turquoise'
color_mujer = 'purple'

# Ordenar los datos de más a menos según el total de plazas matriculaciones por cada comunidad y sexo
plazas_especiales_sexo_comunidad_2022_sorted = plazas_especiales_sexo_comunidad_2022.unstack().sort_values(by='Hombres', ascending=False)

# Crear una figura y ejes para el gráfico
fig, ax = plt.subplots(figsize=(12, 6))

# Graficar los datos ordenados
plazas_especiales_sexo_comunidad_2022_sorted.plot(kind='bar', ax=ax, color=[color_hombre, color_mujer])

# Configurar el título y etiquetas de los ejes
ax.set_title('Plazas especiales por comunidad y sexo (2022)')
ax.set_xlabel('Comunidad autónoma/provincia')
ax.set_ylabel('Total plazas matriculaciones')

# Mostrar la leyenda
ax.legend(title='Sexo')

# Rotar las etiquetas del eje x para una mejor visualización
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.tight_layout()
plt.show()

En este caso, el total de plazas de necesidades especiales por Comunidad nos indica que los hombres destinan casi el doble de plazas neurológicas, en comparación a las mujeres.

El top 5 de comunidades de plazas asignadas por Necesidades especiales son:

- ANDALUCÍA
- CATALUÑA
- VALENCIA
- MADRID
- CANARIAS

Las 4 primeras posiciones coinciden en el volumen total de matriculaciones con respecto a la población. Sin embargo, llama la atención el caso de Canarias, ya que, según la tabla anterior, se encuentra en la mitad de la clasificación. Es posible que intervengan otros factores, como el medio ambiente o el desarrollo de la comunidad en estos casos, entre otras cosas.

Ahora vamos a visualizar por cada una de las discapacidades que trabajamos.

## Visualización plazas discapacidad intelectual por Comunidad y Sexo, 2022

In [None]:
# Filtrar los datos para discapacidad intelectual y excluir Barcelona, Tarragona, Lleida y Girona
filtered_data = Plazas[(Plazas['Discapacidad'] == 'Intelectual') &
                       (~Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona']))]

# Agrupar los datos por comunidad autónoma/provincia y sexo, y calcular el total de plazas matriculaciones
grouped_data = filtered_data.groupby(['Comunidad autónoma/provincia', 'Sexo'])['Total plazas matriculaciones'].sum()

# Ordenar los datos de más a menos según el total de plazas matriculaciones
sorted_data = grouped_data.unstack().sort_values(by='Hombres', ascending=False)

# Mostrar los datos ordenados
print(sorted_data)

In [None]:
# Definir colores para hombres y mujeres
color_hombre = 'turquoise'
color_mujer = 'purple'

# Crear una figura y ejes para el gráfico
fig, ax = plt.subplots(figsize=(12, 6))

# Graficar los datos ordenados y especificar colores para hombres y mujeres
sorted_data.plot(kind='bar', ax=ax, color=[color_hombre, color_mujer])

# Configurar el título y etiquetas de los ejes
ax.set_title('Discapacidad Intelectual por comunidad y sexo (2022)')
ax.set_xlabel('Comunidad autónoma/provincia')
ax.set_ylabel('Total plazas matriculaciones')

# Mostrar la leyenda
ax.legend(title='Sexo')

# Rotar las etiquetas del eje x para una mejor visualización
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.tight_layout()
plt.show()

El top 5 de discapacidad intelectual:

- ANDALUCÍA
- MADRID
- CATALUÑA
- VALENCIA
- CANARIAS

Tengo la misma sensación del gráfico anterior. Me llama la atención Madrid dónde los datos reflejan 4 veces más que las mujeres.

## Visualización plazas discapacidad Trastornos del espectro del autismo (2) por Comunidad y Sexo, 2022

In [None]:
# Filtrar los datos para el año 2022, discapacidad intelectual y excluir Barcelona, Tarragona, Lleida y Girona
filtered_data_2022 = Plazas[(Plazas['Año finalización curso'] == 2022) & 
                             (Plazas['Discapacidad'] == 'Trastornos del espectro del autismo (2)') &
                             (~Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona']))]

# Agrupar los datos por comunidad autónoma/provincia y sexo, y calcular el total de plazas matriculaciones
grouped_data_2022 = filtered_data_2022.groupby(['Comunidad autónoma/provincia', 'Sexo'])['Total plazas matriculaciones'].sum()

# Ordenar los datos de más a menos según el total de plazas matriculaciones
sorted_data_2022 = grouped_data_2022.unstack().sort_values(by='Hombres', ascending=False)

# Mostrar los datos ordenados
print(sorted_data_2022)

In [None]:
# Definir colores para hombres y mujeres
color_hombre = 'turquoise'
color_mujer = 'purple'

# Crear una figura y ejes para el gráfico
fig, ax = plt.subplots(figsize=(12, 6))

# Graficar los datos ordenados y especificar colores para hombres y mujeres
sorted_data_2022.plot(kind='bar', ax=ax, color=[color_hombre, color_mujer])

# Configurar el título y etiquetas de los ejes
ax.set_title('Discapacidad Trastornos del espectro del autismo (2) por comunidad y sexo (2022)')
ax.set_xlabel('Comunidad autónoma/provincia')
ax.set_ylabel('Total plazas matriculaciones')

# Mostrar la leyenda
ax.legend(title='Sexo')

# Rotar las etiquetas del eje x para una mejor visualización
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.tight_layout()
plt.show()

En cuanto al autismo, El top 5:

- ANDALUCÍA
- CATALUÑA
- VALENCIA
- MADRID
- CANARIAS

Volvemos a repetir con Canarias en el 5 puesto y vemos que en el caso de autismo el hombre dobla los datos en relación a las mujeres.

## Visualización plazas discapacidad Trastornos graves de conducta/personalidad por Comunidad y Sexo, 2022

In [None]:
# Filtrar los datos para el año 2022, discapacidad intelectual y excluir Barcelona, Tarragona, Lleida y Girona
filtered_data_2022 = Plazas[(Plazas['Año finalización curso'] == 2022) & 
                             (Plazas['Discapacidad'] == 'Trastornos graves de conducta/personalidad') &
                             (~Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona']))]

# Agrupar los datos por comunidad autónoma/provincia y sexo, y calcular el total de plazas matriculaciones
grouped_data_2022 = filtered_data_2022.groupby(['Comunidad autónoma/provincia', 'Sexo'])['Total plazas matriculaciones'].sum()

# Ordenar los datos de más a menos según el total de plazas matriculaciones
sorted_data_2022 = grouped_data_2022.unstack().sort_values(by='Hombres', ascending=False)

# Mostrar los datos ordenados
print(sorted_data_2022)

In [None]:
# Definir colores para hombres y mujeres
color_hombre = 'turquoise'
color_mujer = 'purple'

# Crear una figura y ejes para el gráfico
fig, ax = plt.subplots(figsize=(12, 6))

# Graficar los datos ordenados y especificar colores para hombres y mujeres
sorted_data_2022.plot(kind='bar', ax=ax, color=[color_hombre, color_mujer])

# Configurar el título y etiquetas de los ejes
ax.set_title('Discapacidad Trastornos graves de conducta/personalidad por comunidad y sexo (2022)')
ax.set_xlabel('Comunidad autónoma/provincia')
ax.set_ylabel('Total plazas matriculaciones')

# Mostrar la leyenda
ax.legend(title='Sexo')

# Rotar las etiquetas del eje x para una mejor visualización
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.tight_layout()
plt.show()

Con el trastorno grave de conducta, el top 5:

- MADRID
- CATALUÑA
- ANDALUCÍA
- GALICIA
- MURCIA

En este caso si tenemos variación, y se entiende que la población no tiene tanto que ver, bueno, un poci sí pero en este caso Andalucía se encuentra en 3 posición, pero Valencia baja a mitad de la lista y sube posiciones Galicia y Murcia.

Ahora quiero mirar la evolución y la tendencia de cada discapacidad.

## Visualización evolución total discapacidad intelectual (2018-1022)

In [None]:
# Filtrar los datos para discapacidad intelectual
data_discapacidad_intelectual = Plazas[Plazas['Discapacidad'] == 'Intelectual']

# Agrupar los datos por año y calcular el total de plazas matriculaciones para cada año
grouped_data_año = data_discapacidad_intelectual.groupby('Año finalización curso')['Total plazas matriculaciones'].sum()

# Crear una figura y ejes para el gráfico
fig, ax = plt.subplots(figsize=(10, 6))

# Graficar la evolución del total de plazas matriculaciones por año
grouped_data_año.plot(kind='line', marker='o', color='b', ax=ax)

# Configurar el título y etiquetas de los ejes
ax.set_title('Evolución del total de matriculaciones por Discapacidad Intelectual (2018-2022)')
ax.set_xlabel('Año')
ax.set_ylabel('Total plazas matriculaciones')

# Mostrar la cuadrícula
ax.grid(True)

# Mostrar el gráfico
plt.tight_layout()
plt.show()

En este caso, se puede comprobar que existe una tendencia positiva, con lo que se indica que posiblemente haya que destinar cada año más matriculaciones a esta discapacidad.

## Visualización evolución total discapacidad Trastornos del espectro del autismo (2) (2018-1022)

In [None]:
# Filtrar los datos para la discapacidad "Trastornos del espectro del autismo (2)"
data_discapacidad_autismo = Plazas[Plazas['Discapacidad'] == 'Trastornos del espectro del autismo (2)']

# Agrupar los datos por año y calcular el total de plazas matriculaciones para cada año
grouped_data_autismo_año = data_discapacidad_autismo.groupby('Año finalización curso')['Total plazas matriculaciones'].sum()

# Convertir el índice a enteros
grouped_data_autismo_año.index = grouped_data_autismo_año.index.astype(int)

# Crear una figura y ejes para el gráfico
fig, ax = plt.subplots(figsize=(10, 6))

# Graficar la evolución del total de plazas matriculaciones por año
grouped_data_autismo_año.plot(kind='line', marker='o', color='b', ax=ax)

# Configurar el título y etiquetas de los ejes
ax.set_title('Evolución del total de matriculaciones por Discapacidad Trastornos del espectro del autismo (2) (2018-2022)')
ax.set_xlabel('Año')
ax.set_ylabel('Total plazas matriculaciones')

# Mostrar la cuadrícula
ax.grid(True)

# Mostrar el gráfico
plt.tight_layout()
plt.show()

En el caso del autismo, se pecibe una tendencia positiva hasta 2021, que después se estabiliza. Posiblemente sea porque hace pocos años que se está implementando en España, quizás por ello la primera impresión de tendencia, y en este momento está más controlado. Es una suposición.

## Visualización evolución total discapacidad Trastornos graves de conducta/personalidad (2018-1022)

In [None]:
# Filtrar los datos para la discapacidad "Trastornos graves de conducta/personalidad"
data_discapacidad_graves_conducta = Plazas[Plazas['Discapacidad'] == 'Trastornos graves de conducta/personalidad']

# Agrupar los datos por año y calcular el total de plazas matriculaciones para cada año
grouped_data_graves_conducta_año = data_discapacidad_graves_conducta.groupby('Año finalización curso')['Total plazas matriculaciones'].sum()

# Convertir el índice a enteros
grouped_data_graves_conducta_año.index = grouped_data_graves_conducta_año.index.astype(int)

# Crear una figura y ejes para el gráfico
fig, ax = plt.subplots(figsize=(10, 6))

# Graficar la evolución del total de plazas matriculaciones por año
grouped_data_graves_conducta_año.plot(kind='line', marker='o', color='b', ax=ax)

# Configurar el título y etiquetas de los ejes
ax.set_title('Evolución del total de matriculaciones por Discapacidad Trastornos graves de conducta/personalidad (2018-2022)')
ax.set_xlabel('Año')
ax.set_ylabel('Total plazas matriculaciones')

# Mostrar la cuadrícula
ax.grid(True)

# Mostrar el gráfico
plt.tight_layout()
plt.show()

La evolución del trastorno grave de conducta, la tendencia es negativa, hasta 2020 que parece que se estabiliza y sigue bajando. Hay que tener en cuenta que el total de plazas destinadas para cada discapacidades son muy diferentes y en cada una de sus visualizaciones se percibe las tendencias, pero voy a gruparlas en un gráfico con una escala de plazas de matriculaciones iguales para cada una de ellas, y se verá de diferente manera.

## Visualización evolución matriculaciones por discapacidad (2018-2022)

In [None]:
# Filtrar los datos para cada tipo de discapacidad
data_intelectual = Plazas[Plazas['Discapacidad'] == 'Intelectual']
data_autismo = Plazas[Plazas['Discapacidad'] == 'Trastornos del espectro del autismo (2)']
data_graves = Plazas[Plazas['Discapacidad'] == 'Trastornos graves de conducta/personalidad']

# Agrupar los datos por año y calcular el total de plazas matriculaciones para cada año
grouped_data_intelectual = data_intelectual.groupby('Año finalización curso')['Total plazas matriculaciones'].sum()
grouped_data_autismo = data_autismo.groupby('Año finalización curso')['Total plazas matriculaciones'].sum()
grouped_data_graves = data_graves.groupby('Año finalización curso')['Total plazas matriculaciones'].sum()

# Crear una figura y ejes para el gráfico
fig, ax = plt.subplots(figsize=(10, 6))

# Graficar la evolución del total de plazas matriculaciones por año para cada tipo de discapacidad
grouped_data_intelectual.plot(kind='line', marker='o', color='b', label='Intelectual', ax=ax)
grouped_data_autismo.plot(kind='line', marker='o', color='r', label='Autismo', ax=ax)
grouped_data_graves.plot(kind='line', marker='o', color='g', label='Trastornos graves', ax=ax)

# Configurar el título y etiquetas de los ejes
ax.set_title('Evolución del total de matriculaciones por Discapacidad (2018-2022)')
ax.set_xlabel('Año')
ax.set_ylabel('Total plazas matriculaciones')

# Agregar la leyenda
ax.legend()

# Mostrar la cuadrícula
ax.grid(True)

# Mostrar el gráfico
plt.tight_layout()
plt.show()

De este modo, no sorprende tanto los datos, ya que en trastornos graves se mantiene constante, en los otros dos casao se percibe lo mismo, pero siguen habiendo más casos de plazas especiales destinadas a discapacidad intelectual.

Tenía ganas de mostrar un mapa gráfico nacional por cada discapacidad, para que visualmente se viera como están distribuidas el total de plazas.

## VISUALIZACIÓN MAPA ESPAÑA DISCAPACIDAD INTELECTUAL 2022

In [None]:
# Filtrar los datos para el año 2022, discapacidad intelectual y excluir Barcelona, Tarragona, Lleida y Girona
filtered_data_2022 = Plazas[(Plazas['Año finalización curso'] == 2022) & 
                             (Plazas['Discapacidad'] == 'Intelectual') &
                             (~Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona']))]

# Agrupar los datos por comunidad autónoma/provincia y sexo, y calcular el total de plazas matriculaciones
filtro_intelectual = filtered_data_2022.groupby(['Comunidad autónoma/provincia'])['Total plazas matriculaciones'].sum()

# Ordenar los datos de forma descendente
filtro_intelectual_ordenado = filtro_intelectual.sort_values(ascending=False)

# Mostrar los datos ordenados
print(filtro_intelectual_ordenado)

In [None]:
# Guardar los datos en un archivo CSV
filtro_intelectual.to_csv("matriculaciones_discapacidad_intelectual_2022.csv", header=True)

In [None]:
import pandas as pd
import plotly.express as px
import json
from urllib.request import urlopen

# Cargar los datos desde el archivo CSV
datos_csv = "matriculaciones_discapacidad_intelectual_2022.csv"
df = pd.read_csv(datos_csv)

# Definir el diccionario de mapeo de nombres
mapeo_nombres = {
    '01 ANDALUCÍA': 'Andalucía',
    '02 ARAGÓN': 'Aragón',
    '03 ASTURIAS, PRINCIPADO DE': 'Principado de Asturias',
    '04 BALEARS, ILLES': 'Islas Baleares',
    '05 CANARIAS': 'Islas Canarias',
    '06 CANTABRIA': 'Cantabria',
    '07 CASTILLA Y LEÓN': 'Castilla y León',
    '08 CASTILLA-LA MANCHA': 'Castilla-La Mancha',
    '09 CATALUÑA': 'Cataluña',
    '10 COMUNITAT VALENCIANA': 'Comunidad Valenciana',
    '11 EXTREMADURA': 'Extremadura',
    '12 GALICIA': 'Galicia',
    '13 MADRID, COMUNIDAD DE': 'Comunidad de Madrid',
    '14 MURCIA, REGIÓN DE': 'Región de Murcia',
    '15 NAVARRA, COMUNIDAD FORAL DE': 'Comunidad Foral de Navarra',
    '16 PAÍS VASCO': 'País Vasco',
    '17 RIOJA, LA': 'La Rioja',
    '18 CEUTA': 'Ceuta',
    '19 MELILLA': 'Melilla'
}

# Aplicar el mapeo al DataFrame
df['Comunidad autónoma/provincia'] = df['Comunidad autónoma/provincia'].map(mapeo_nombres)

# URL del archivo GeoJSON que contiene las geometrías de las comunidades autónomas de España
url_geojson_espana = "https://raw.githubusercontent.com/R-CoderDotCom/data/main/shapefile_spain/spain.geojson"

# Cargar el GeoJSON desde la URL
with urlopen(url_geojson_espana) as response:
    geojson_espana = json.load(response)

# Crear el mapa coroplético con dimensiones más grandes
fig = px.choropleth_mapbox(df, 
                           geojson=geojson_espana, 
                           locations='Comunidad autónoma/provincia', 
                           featureidkey="properties.name",
                           color='Total plazas matriculaciones',
                           color_continuous_scale="Viridis",
                           range_color=(0, max(df['Total plazas matriculaciones'])),
                           mapbox_style="carto-positron",
                           zoom=5, center = {"lat": 40.4168, "lon": -3.7038},
                           opacity=0.7,
                           labels={'Total plazas matriculaciones':'Total de matriculaciones'},
                           title='Total de Matriculaciones por Comunidad de Discapacidad Intelectual en 2022',
                           width=1200, height=800  # ajustar el ancho y alto del gráfico
                          )

# Mostrar el mapa
fig.show()

## VISUALIZACIÓN MAPA ESPAÑA DISCAPACIDAD Trastornos del espectro del autismo (2) 2022

In [None]:
# Filtrar los datos para el año 2022, discapacidad Trastornos del espectro del autismo (2) y excluir Barcelona, Tarragona, Lleida y Girona
filtered_data_2022 = Plazas[(Plazas['Año finalización curso'] == 2022) & 
                             (Plazas['Discapacidad'] == 'Trastornos del espectro del autismo (2)') &
                             (~Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona']))]

# Agrupar los datos por comunidad autónoma/provincia y sexo, y calcular el total de plazas matriculaciones
filtro_autismo = filtered_data_2022.groupby(['Comunidad autónoma/provincia'])['Total plazas matriculaciones'].sum()

# Ordenar los datos de forma ascendente (de menos a más)
filtro_autismo_ordenado_ascendente = filtro_autismo.sort_values(ascending=False)

# Mostrar los datos ordenados de forma ascendente
print(filtro_autismo_ordenado_ascendente)

In [None]:
# Guardar los datos en un archivo CSV
filtro_autismo.to_csv("matriculaciones_discapacidad_autismo_2022.csv", header=True)

In [None]:
# Cargar los datos desde el archivo CSV
datos_csv = "matriculaciones_discapacidad_autismo_2022.csv"
df = pd.read_csv(datos_csv)

# Definir el diccionario de mapeo de nombres
mapeo_nombres = {
     '01 ANDALUCÍA': 'Andalucía',
    '02 ARAGÓN': 'Aragón',
    '03 ASTURIAS, PRINCIPADO DE': 'Principado de Asturias',
    '04 BALEARS, ILLES': 'Islas Baleares',
    '05 CANARIAS': 'Islas Canarias',
    '06 CANTABRIA': 'Cantabria',
    '07 CASTILLA Y LEÓN': 'Castilla y León',
    '08 CASTILLA-LA MANCHA': 'Castilla-La Mancha',
    '09 CATALUÑA': 'Cataluña',
    '10 COMUNITAT VALENCIANA': 'Comunidad Valenciana',
    '11 EXTREMADURA': 'Extremadura',
    '12 GALICIA': 'Galicia',
    '13 MADRID, COMUNIDAD DE': 'Comunidad de Madrid',
    '14 MURCIA, REGIÓN DE': 'Región de Murcia',
    '15 NAVARRA, COMUNIDAD FORAL DE': 'Comunidad Foral de Navarra',
    '16 PAÍS VASCO': 'País Vasco',
    '17 RIOJA, LA': 'La Rioja',
    '18 CEUTA': 'Ceuta',
    '19 MELILLA': 'Melilla'
}

# Aplicar el mapeo al DataFrame
df['Comunidad autónoma/provincia'] = df['Comunidad autónoma/provincia'].map(mapeo_nombres)

# URL del archivo GeoJSON que contiene las geometrías de las comunidades autónomas de España
url_geojson_espana = "https://raw.githubusercontent.com/R-CoderDotCom/data/main/shapefile_spain/spain.geojson"

# Cargar el GeoJSON desde la URL
with urlopen(url_geojson_espana) as response:
    geojson_espana = json.load(response)

# Crear el mapa coroplético
fig = px.choropleth_mapbox(df, 
                           geojson=geojson_espana, 
                           locations='Comunidad autónoma/provincia', 
                           featureidkey="properties.name",
                           color='Total plazas matriculaciones',
                           color_continuous_scale="Viridis",
                           range_color=(0, max(df['Total plazas matriculaciones'])),
                           mapbox_style="carto-positron",
                           zoom=5, center = {"lat": 40.4168, "lon": -3.7038},
                           opacity=0.7,
                           labels={'Total plazas matriculaciones':'Total de matriculaciones'},
                           title='Total de Matriculaciones por Comunidad de Discapacidad Trastornos del espectro del autismo (2) en 2022',
                           width=1200, height=800
                          )

# Mostrar el mapa
fig.show()

## VISUALIZACIÓN MAPA ESPAÑA DISCAPACIDAD Trastornos graves de conducta/personalidad' 2022

In [None]:
# Filtrar los datos para el año 2022, discapacidad Trastornos graves de conducta/personalidad y excluir Barcelona, Tarragona, Lleida y Girona
filtered_data_2022 = Plazas[(Plazas['Año finalización curso'] == 2022) & 
                             (Plazas['Discapacidad'] == 'Trastornos graves de conducta/personalidad') &
                             (~Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona']))]

# Agrupar los datos por comunidad autónoma/provincia y sexo, y calcular el total de plazas matriculaciones
filtro_trastornos = filtered_data_2022.groupby(['Comunidad autónoma/provincia'])['Total plazas matriculaciones'].sum()

# Ordenar los datos de forma ascendente (de menos a más)
filtro_trastornos_ordenado_ascendente = filtro_trastornos.sort_values(ascending=False)

# Mostrar los datos ordenados de forma ascendente
print(filtro_trastornos_ordenado_ascendente)

In [None]:
# Guardar los datos en un archivo CSV
filtro_trastornos.to_csv("matriculaciones_discapacidad_trastornos_2022.csv", header=True)

In [None]:
# Cargar los datos desde el archivo CSV
datos_csv = "matriculaciones_discapacidad_trastornos_2022.csv"
df = pd.read_csv(datos_csv)

# Definir el diccionario de mapeo de nombres
mapeo_nombres = {
     '01 ANDALUCÍA': 'Andalucía',
    '02 ARAGÓN': 'Aragón',
    '03 ASTURIAS, PRINCIPADO DE': 'Principado de Asturias',
    '04 BALEARS, ILLES': 'Islas Baleares',
    '05 CANARIAS': 'Islas Canarias',
    '06 CANTABRIA': 'Cantabria',
    '07 CASTILLA Y LEÓN': 'Castilla y León',
    '08 CASTILLA-LA MANCHA': 'Castilla-La Mancha',
    '09 CATALUÑA': 'Cataluña',
    '10 COMUNITAT VALENCIANA': 'Comunidad Valenciana',
    '11 EXTREMADURA': 'Extremadura',
    '12 GALICIA': 'Galicia',
    '13 MADRID, COMUNIDAD DE': 'Comunidad de Madrid',
    '14 MURCIA, REGIÓN DE': 'Región de Murcia',
    '15 NAVARRA, COMUNIDAD FORAL DE': 'Comunidad Foral de Navarra',
    '16 PAÍS VASCO': 'País Vasco',
    '17 RIOJA, LA': 'La Rioja',
    '18 CEUTA': 'Ceuta',
    '19 MELILLA': 'Melilla'
}

# Aplicar el mapeo al DataFrame
df['Comunidad autónoma/provincia'] = df['Comunidad autónoma/provincia'].map(mapeo_nombres)

# URL del archivo GeoJSON que contiene las geometrías de las comunidades autónomas de España
url_geojson_espana = "https://raw.githubusercontent.com/R-CoderDotCom/data/main/shapefile_spain/spain.geojson"

# Cargar el GeoJSON desde la URL
with urlopen(url_geojson_espana) as response:
    geojson_espana = json.load(response)

# Crear el mapa coroplético
fig = px.choropleth_mapbox(df, 
                           geojson=geojson_espana, 
                           locations='Comunidad autónoma/provincia', 
                           featureidkey="properties.name",
                           color='Total plazas matriculaciones',
                           color_continuous_scale="Viridis",
                           range_color=(0, max(df['Total plazas matriculaciones'])),
                           mapbox_style="carto-positron",
                           zoom=5, center = {"lat": 40.4168, "lon": -3.7038},
                           opacity=0.7,
                           labels={'Total plazas matriculaciones':'Total de matriculaciones'},
                           title='Total de Matriculaciones por Comunidad de Discapacidad Trastornos graves de conducta/personalidad en 2022',
                           width=1200, height=800
                          )

# Mostrar el mapa
fig.show()

Lo que sorprende es que sin valorar las plazas Ordinales asignadas por comunidad, si visualizo el tamaño de cada comunidad se entiende que es posible que deberian haber más casos en Andalucía, Castilla i León i Castilla la Mancha, pero en ninguno de los tres gráficos se visualiza. Sólo coincide Andalucía.

A partir de aquí, empezamos a trabajar con el dataset reducido, voy a trabajar con los datos de Catalunya, por provincia. Quiero visualizar los datos en Cataluña.

In [None]:
# 1. Filtrar los datos originales
datos_filtrados = Plazas[
    (Plazas['Año finalización curso'].between(2018, 2022)) & 
    ((Plazas['Tipo de plazas'] == 'Ordinarias') | (Plazas['Tipo de plazas'] == 'Especiales')) & 
    (Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona']))
]

# 2. Seleccionar columnas específicas
columnas_seleccionadas = [
    'Año finalización curso', 'Tipo de plazas', 'Comunidad autónoma/provincia', 
    'Discapacidad', 'Sexo', 'Total plazas matriculaciones'
]

# 3. Crear el nuevo DataFrame
Cataluña = datos_filtrados[columnas_seleccionadas]

# 1. Filtrar los datos originales para el año 2022
datos_filtrados_2022 = Plazas[
    (Plazas['Año finalización curso'] == 2022) & 
    ((Plazas['Tipo de plazas'] == 'Ordinarias') | (Plazas['Tipo de plazas'] == 'Especiales')) & 
    (Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona']))
]

# 2. Seleccionar columnas específicas
columnas_seleccionadas = [
    'Año finalización curso', 'Tipo de plazas', 'Comunidad autónoma/provincia', 
    'Discapacidad', 'Sexo', 'Total plazas matriculaciones'
]

# 3. Crear el nuevo DataFrame
df_cat_2022 = datos_filtrados_2022[columnas_seleccionadas]

# Mostrar las primeras filas del nuevo DataFrame
df_cat_2022


In [None]:
# Filtrar los datos para el año de finalización del curso 2022 y excluir los valores "No" de la discapacidad
datos_2022_sin_no = Cataluña[(Cataluña['Año finalización curso'] == 2022) & (Cataluña['Discapacidad'] != 'No')]

# Agrupar los datos por discapacidad y comunidad autónoma/provincia, y sumar el total de plazas matriculaciones
total_plazas_por_discapacidad = datos_2022_sin_no.groupby(['Discapacidad', 'Comunidad autónoma/provincia'])['Total plazas matriculaciones'].sum()

# Definir la paleta de colores personalizada
colores = {'Barcelona': 'Lavender',  # Lila
           'Girona': 'SandyBrown',         # Turquesa
           'Lleida': 'HoneyDew',             # Amarillo
           'Tarragona': 'LightSteelBlue'}      # Verde pistacho

# Crear tres gráficos circulares, uno para cada discapacidad
for discapacidad in total_plazas_por_discapacidad.index.levels[0]:
    # Filtrar los datos para la discapacidad específica
    datos_discapacidad = total_plazas_por_discapacidad.loc[discapacidad]
    
    # Crear la figura y los ejes del gráfico circular
    plt.figure(figsize=(6, 6))
    
    # Graficar el gráfico circular
    plt.pie(datos_discapacidad, labels=datos_discapacidad.index, colors=[colores.get(x, 'blue') for x in datos_discapacidad.index], autopct='%1.1f%%', startangle=140)
    
    # Configurar el título del gráfico
    plt.suptitle(f'Distribución del total de plazas matriculaciones por provincia en Cataluña para la discapacidad: {discapacidad}', y=1.05, fontsize=16)
    
    # Mostrar el gráfico
    plt.axis('equal')  # Aspecto igual para que sea circular
    plt.tight_layout()
    plt.show()

Está claro que Barcelona es la provincia que más casos tiene y de calle, se entiende que por población.

En Barcelona a 2023 tenemos una población de 5.795.594.
En Tarragona a 2023 tenemos una población de 138260.
En Lleida a 2023 tenemos una población de 448676.
En Girona a 2023 tenemos una población de 201615.
Así que está claro porque salen estos resultados.

Voy a calcular la tendencia en cataluña de las tres discapacidaes.

In [None]:
# Filtrar los datos para las tres discapacidades y las provincias específicas desde 2018 hasta 2022
data_intelectual = Plazas[(Plazas['Discapacidad'] == 'Intelectual') & 
                          (Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona'])) & 
                          (Plazas['Año finalización curso'] >= 2018) & 
                          (Plazas['Año finalización curso'] <= 2022)]

data_autismo = Plazas[(Plazas['Discapacidad'] == 'Trastornos del espectro del autismo (2)') & 
                      (Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona'])) & 
                      (Plazas['Año finalización curso'] >= 2018) & 
                      (Plazas['Año finalización curso'] <= 2022)]

data_graves = Plazas[(Plazas['Discapacidad'] == 'Trastornos graves de conducta/personalidad') & 
                     (Plazas['Comunidad autónoma/provincia'].isin(['Barcelona', 'Tarragona', 'Lleida', 'Girona'])) & 
                     (Plazas['Año finalización curso'] >= 2018) & 
                     (Plazas['Año finalización curso'] <= 2022)]

# Agrupar los datos por año y calcular el total de plazas matriculaciones para cada año
grouped_data_intelectual = data_intelectual.groupby('Año finalización curso')['Total plazas matriculaciones'].sum()
grouped_data_autismo = data_autismo.groupby('Año finalización curso')['Total plazas matriculaciones'].sum()
grouped_data_graves = data_graves.groupby('Año finalización curso')['Total plazas matriculaciones'].sum()

# Crear una figura y ejes para el gráfico
fig, ax = plt.subplots(figsize=(10, 6))

# Graficar la evolución del total de plazas matriculaciones por año para cada tipo de discapacidad
grouped_data_intelectual.plot(kind='line', marker='o', color='b', label='Intelectual', ax=ax)
grouped_data_autismo.plot(kind='line', marker='o', color='r', label='Autismo', ax=ax)
grouped_data_graves.plot(kind='line', marker='o', color='g', label='Trastornos graves', ax=ax)

# Configurar el título y etiquetas de los ejes
ax.set_title('Evolución del total de matriculaciones por Discapacidad (2018-2022) - Barcelona, Tarragona, Lleida, Girona')
ax.set_xlabel('Año')
ax.set_ylabel('Total plazas matriculaciones')

# Agregar la leyenda debajo del gráfico
ax.legend(loc='upper center', bbox_to_anchor=(0.5, -0.15), shadow=True, ncol=3, fontsize='medium')

# Mostrar la cuadrícula
ax.grid(True)

# Mostrar el gráfico
plt.tight_layout()
plt.show()

Trastornos graves de conducta se mantiene constante, como los datos nacionales, el autismo, existe la misma tendencia que la nacional pero de 2021 a 2022 decrece, así que son buenos datos. Y en el caso de la discapacidad intelectual existe también la misma tendencia positiva hasta 2020, y a posterior la tendencia es negativa, así que también son buenas noticias.

Volvemos al dataset a nivel nacional, pero sólo vamos a contemplar los datos de 2022, ya que para aplicar el modelo de clasificación, no creo que le resulte fácil o coherente agrupar los datos repetidos temporalmente.

In [None]:
# Filtrar las filas que tienen el año de finalización del curso igual a 2022
plazas_2022 = Plazas[Plazas['Año finalización curso'] == 2022]

# Eliminar registros de Barcelona, Girona, Lleida y Tarragona
plazas_2022 = plazas_2022[~plazas_2022['Comunidad autónoma/provincia'].isin(['Barcelona', 'Girona', 'Lleida', 'Tarragona'])]
plazas_2022

Nos encontramos con una tabla que tiene 2 columnas numéricas, y el resto son categóricas. Primero vamos a transformar las columnas en numéricas para poder aplicar correctamente los modelos. Para la columna de Comunidad autónoma voy a aplicar un one-hot encoding, y para el resto de columnas aplico Ordinal Encoder.

In [None]:
from sklearn.preprocessing import OrdinalEncoder


# Creamos el codificador ordinal
encoder = OrdinalEncoder()

# Aplicamos el encoder a la columna 'Discapacidad' y asignamos los valores codificados directamente
plazas_2022['Discapacidad_encoded'] = encoder.fit_transform(plazas_2022[['Discapacidad']])

# Creamos el codificador ordinal
encoder = OrdinalEncoder()

# Aplicamos el encoder a la columna 'Tipo de plazas' y asignamos los valores codificados directamente
plazas_2022['Tipo de plazas_encoded'] = encoder.fit_transform(plazas_2022[['Tipo de plazas']])

# Creamos el codificador ordinal para Sexo
encoder_sexo = OrdinalEncoder()

# Aplicamos el encoder a la columna 'Sexo' y asignamos los valores codificados
plazas_2022['Sexo_encoded'] = encoder_sexo.fit_transform(plazas_2022[['Sexo']])


In [None]:
# Aplicamos one-hot encoding
comunidad_autonoma_encoded = pd.get_dummies(plazas_2022['Comunidad autónoma/provincia'], prefix='Comunidad')

# Convertimos los valores True y False a 1 y 0
comunidad_autonoma_encoded = comunidad_autonoma_encoded.astype(int)

# Concatenamos el DataFrame original con las columnas codificadas
plazas_2022 = pd.concat([plazas_2022, comunidad_autonoma_encoded], axis=1)

# Eliminamos la columna original 'Comunidad autónoma/provincia'
plazas_2022.drop(columns=['Comunidad autónoma/provincia'], inplace=True)

In [None]:
# Seleccionar solo las columnas numéricas
columnas_numericas = ['Total plazas matriculaciones','Discapacidad_encoded','Tipo de plazas_encoded','Sexo_encoded','Comunidad_01 ANDALUCÍA','Comunidad_02 ARAGÓN',	'Comunidad_10 COMUNITAT VALENCIANA','Comunidad_11 EXTREMADURA', 'Comunidad_12 GALICIA',	'Comunidad_13 MADRID, COMUNIDAD DE', 'Comunidad_14 MURCIA, REGIÓN DE', 'Comunidad_15 NAVARRA, COMUNIDAD FORAL DE', 'Comunidad_16 PAÍS VASCO',	'Comunidad_17 RIOJA, LA', 'Comunidad_18 CEUTA',	'Comunidad_19 MELILLA']

# Crear el nuevo DataFrame con las columnas numéricas y la columna categórica
df = plazas_2022[columnas_numericas]

In [None]:
df.describe().round(2)

Voy a comprobar la distribución las las variables aplicando la prueba shapiro.

In [None]:
from scipy.stats import shapiro
from tabulate import tabulate
import pandas as pd

# Creamos una lista para almacenar los resultados de la prueba
resultados = []

# Iteramos sobre cada columna en el DataFrame 'df'
for columna in df.columns:
    stat, p = shapiro(df[columna])
        
    alpha = 0.05  # Nivel de significancia
    if p > alpha:
        resultado = "Probablemente sigue una distribución normal"
    else:
        resultado = "Probablemente no sigue una distribución normal"
        
    resultados.append([columna, stat, p, resultado])

# Imprimimos los resultados en formato tabular
tabla_resultados = tabulate(resultados, headers=["Variable", "Estadística", "Valor-p", "Resultado"], tablefmt="pretty")
print(tabla_resultados)

Y se confirma que no tiene una distribución normal. Así que voy a graficarlas.

In [None]:
import seaborn as sns

plt.figure(figsize=(20, 40))

for columna in columnas_numericas:
  
    plt.subplot(10, 3, df.columns.get_loc(columna) + 1)
    sns.histplot(data=df[columna],kde=True)
    plt.xlabel(columna)
    
    plt.subplots_adjust(hspace=0.5)
    
    plt.show

In [None]:
# Definir el tamaño de la figura
plt.figure(figsize=(15, 10))

# Iterar sobre cada columna del DataFrame
for i, columna in enumerate(df.columns):
    # Crear un subplot para cada variable
    plt.subplot(4, 4, i+1)
    
    # Si la variable es numérica, crea un boxplot
    if df[columna].dtype in ['float64', 'int64']:
        sns.boxplot(x=df[columna], orient='v', width=0.3, color='skyblue')
        plt.ylabel(columna, fontsize=10)
    # Si la variable es categórica, crea un countplot
    else:
        sns.countplot(y=df[columna], color='lightgreen')
        plt.xlabel('Count', fontsize=10)
        plt.ylabel(columna, fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
# Definir el tamaño de la figura
plt.figure(figsize=(15, 10))

# Iterar sobre cada columna del DataFrame
for i, columna in enumerate(df.columns):
    # Crear un subplot para cada variable
    plt.subplot(4, 4, i+1)
    
    # Crear un boxplot para la variable actual
    sns.boxplot(x=df[columna], orient='v', width=0.3, color='skyblue')
    plt.ylabel(columna, fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
import matplotlib.pyplot as plt


for i in columnas_numericas:
    plt.figure(figsize=(8, 5))
    sns.set()
    
    # Filtra los valores no nulos en la columna actual
    filtered_data = df[df[i].notna()]
    
    # Crea un subplot con dos áreas (boxplot y histograma)
    f, (ax_box, ax_hist) = plt.subplots(2, sharex=True, gridspec_kw={"height_ratios": (.15, .85)})
    
    # Dibuja el boxplot en la parte superior en posición horizontal
    sns.boxplot(x=filtered_data[i], orient="h", ax=ax_box, linewidth=1.0)
    
    # Dibuja el histograma en la parte inferior
    sns.histplot(filtered_data[i], ax=ax_hist, bins=10, kde=True)
    
    # Añade títulos a los subplots
    ax_box.set(xlabel='')
    ax_hist.set(xlabel=i)
    
    plt.gca().set(xlabel=i, ylabel='Frequency')

    # Mostrar los gráficos

Los datos no siguen una distribución normal(Gaussiana). Y en las variables Discapacidad_encoded, Sexo_encoded no presentan Outliers, así que voy a aplicar para el escalado MinMaxScaler. Para las variables que tienen Outliers que son, Total Plazas matriculaciones, Tipo de plazas_encoded, 'Comunidad_01 ANDALUCÍA','Comunidad_02 ARAGÓN', 'Comunidad_10 COMUNITAT VALENCIANA','Comunidad_11 EXTREMADURA', 'Comunidad_12 GALICIA', 'Comunidad_13 MADRID, COMUNIDAD DE', 'Comunidad_14 MURCIA, REGIÓN DE', 'Comunidad_15 NAVARRA, COMUNIDAD FORAL DE', 'Comunidad_16 PAÍS VASCO', 'Comunidad_17 RIOJA, LA', 'Comunidad_18 CEUTA', 'Comunidad_19 MELILLA', aplicaré RobustScaler.

In [None]:
from sklearn.preprocessing import MinMaxScaler, RobustScaler

# Selecciona las columnas numéricas que deseas escalar
columns_minmax = [ 'Discapacidad_encoded', 'Sexo_encoded']
columns_robust = ['Total plazas matriculaciones', 'Tipo de plazas_encoded', 'Comunidad_01 ANDALUCÍA','Comunidad_02 ARAGÓN','Comunidad_10 COMUNITAT VALENCIANA','Comunidad_11 EXTREMADURA', 'Comunidad_12 GALICIA',	'Comunidad_13 MADRID, COMUNIDAD DE', 'Comunidad_14 MURCIA, REGIÓN DE', 'Comunidad_15 NAVARRA, COMUNIDAD FORAL DE', 'Comunidad_16 PAÍS VASCO',	'Comunidad_17 RIOJA, LA', 'Comunidad_18 CEUTA',	'Comunidad_19 MELILLA']

# Crea una instancia de MinMaxScaler y RobustScaler
minmax_scaler = MinMaxScaler()
robust_scaler = RobustScaler()

# Ajusta y transforma los datos seleccionados con MinMaxScaler
df[columns_minmax] = minmax_scaler.fit_transform(df[columns_minmax])

# Ajusta y transforma los datos seleccionados con RobustScaler
df[columns_robust] = robust_scaler.fit_transform(df[columns_robust])
df

In [None]:
df_scaler = df

Consideré hacer una PCA, y los valores me los reducía a una dimensión, pero luego tenía dificultades para graficar los resultados. Así que finalmente he preferido omitir la PCA, y aplicar el modelo Kmeans para todos los datos.

In [None]:
!pip install kneed

In [None]:
from sklearn.cluster import KMeans
from kneed import KneeLocator
import matplotlib.pyplot as plt

inertia = []
for k in range(2, 10):
    kmeans = KMeans(n_clusters=k).fit(df_scaler.values)
    inertia.append(kmeans.inertia_)
    
plt.plot(range(2, 10), inertia, marker="o", linestyle="-")
plt.xlabel("Número de Clusters")
plt.ylabel("Inercia")
plt.title("Número de Clusters vs. Inercia")

# Utilizamos KneeLocator para encontrar el punto de inflexión
kneedle = KneeLocator(range(2, 10), inertia, curve="convex", direction="decreasing")
plt.vlines(kneedle.knee, plt.ylim()[0], plt.ylim()[1], linestyles='dashed', color='red')
plt.text(kneedle.knee+0.1, plt.ylim()[1]/2, 'Punto de codo', rotation=90)

plt.show()

He comprobado la inercia de mis datos, la prueba del codo y aplicando KneeLocator se ve que el punto más óptimo de Clusters es 4.



In [None]:
from sklearn.metrics import silhouette_score


def plot_silhouette(data, k_values):
    silhouette_scores = []

    for k in k_values:
        kmeans = KMeans(n_clusters=k, n_init=10, random_state=45)
        cluster_labels = kmeans.fit_predict(data)
        silhouette_avg = silhouette_score(data, cluster_labels)
        silhouette_scores.append(silhouette_avg)

    plt.plot(k_values, silhouette_scores, 'bo-')
    plt.xlabel('Número de Clusters (K)')
    plt.ylabel('Silhouette Score')
    plt.title('Silhouette Scores vs Número de Clusters(K)')
    plt.show()

k_values = list(range(2, 9))
plot_silhouette(df.values, k_values)

Con el método silhouette el valor más alto de su coeficiente es de 2. Este en principio sería el número de k, el número de centroides. Si establecemos 4, lo que nos está indicando es que no se están dividiendo los datos de una buena forma, ya que el Score se encuentra en 0.86. Sin embargo si optamos por establecer el número 2, el Score se encuentra lo más próximo a 1. Entonces, voy a aplicar los dos para ver que está haciendo.

In [None]:
#desplegamos el método kmeans con el número de k escogido 
kmeans = KMeans(n_clusters=4).fit(df_scaler)

#predecimos los labels 
labels = kmeans.predict(df_scaler)

#creamos una nueva columna en nuestro dataset limpio con los valores de los labels
plazas_2022['label'] = labels

Primeramente, voy a graficar la descripción de los clusters teniendo en cuenta el tamaño de cada uno de los clusters y su relación con el conjunto total de datos.

In [None]:
#contamos el número de observaciones por cluster
cluster_counts = plazas_2022['label'].value_counts()
messages = [f'Cluster {label}: {count} observaciones' for label, count in cluster_counts.items()]

#imprimimos la información
for message in messages:
    print(message)

#creamos un gráfico de pastel
plt.figure(figsize=(8, 8))
plt.pie(cluster_counts, labels=cluster_counts.index, autopct='%1.1f%%', startangle=90)

#configuramos el título
plt.title('Tamaño de cada cluster')

# Mostrar el gráfico
plt.show()

Según el gráfico se establecen 4 Clusters, :

El cluster 0 es el que más observaciones tiene del conjunto de datos. 
Los clusters 1,2 y 3 representan solo el 17% del data set.
Existe mucha diferencia del cluster 0 al resto de clusters.

Voy a visualizar la distribución de los clusters vs las variables. Primeramente voy a ver como distribuye la variable discapacidad.

In [None]:
# Contar el número de ocurrencias de cada valor en 'Discapacidad_encoded' para cada cluster
conteo_discapacidad_por_cluster = plazas_2022.groupby(['label', 'Discapacidad']).size().unstack()

# Normalizar los valores para obtener el porcentaje
conteo_discapacidad_porcentaje = conteo_discapacidad_por_cluster.div(conteo_discapacidad_por_cluster.sum(axis=1), axis=0) * 100

# Escoger un estilo 
sns.set(style="whitegrid")

# Crear el gráfico
plt.figure(figsize=(12, 8))
conteo_discapacidad_porcentaje.plot(kind='barh', stacked=True)

# Configurar
plt.title('Distribución de Discapacidad por Cluster')
plt.xlabel('Porcentaje del Total de Discapacidad')
plt.ylabel('Cluster')

# Ajustar leyenda
plt.legend(title='Discapacidad', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar el gráfico
plt.show()

Y agrupa todas las discapacidades en el cluster 0, entonces se entiende que no tiene peso la variable Discapacidad para la agrupación ya que no lo hace de manera equitativa.

Voy a visualizar si lo agrupa por tipo de plazas.

In [None]:
# Contar el número de ocurrencias de cada valor en 'Tipo de plazas_encoded' para cada cluster
conteo_tipo_plazas_por_cluster = plazas_2022.groupby(['label', 'Tipo de plazas']).size().unstack()

# Normalizar los valores para obtener el porcentaje
conteo_tipo_plazas_porcentaje = conteo_tipo_plazas_por_cluster.div(conteo_tipo_plazas_por_cluster.sum(axis=1), axis=0) * 100

# Escoger un estilo 
sns.set(style="whitegrid")

# Crear el gráfico
plt.figure(figsize=(12, 8))
conteo_tipo_plazas_porcentaje.plot(kind='barh', stacked=True)

# Configurar
plt.title('Distribución de Tipo de Plazas por Cluster')
plt.xlabel('Porcentaje del Total de Tipo de Plazas')
plt.ylabel('Cluster')

# Ajustar leyenda
plt.legend(title='Tipo de Plazas', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar el gráfico
plt.show()

Y la sorpresa es que agrupa en el Cluster 0 las plazas especiales y el resto las distribuye en los otros Clusters.

Ahora, voy a visualizar la variable de Sexo.

In [None]:
# Contar el número de ocurrencias de cada valor en 'Tipo de plazas_encoded' para cada cluster
conteo_tipo_plazas_por_cluster = plazas_2022.groupby(['label', 'Sexo']).size().unstack()

# Normalizar los valores para obtener el porcentaje
conteo_tipo_plazas_porcentaje = conteo_tipo_plazas_por_cluster.div(conteo_tipo_plazas_por_cluster.sum(axis=1), axis=0) * 100

# Escoger un estilo 
sns.set(style="whitegrid")

# Crear el gráfico
plt.figure(figsize=(12, 8))
conteo_tipo_plazas_porcentaje.plot(kind='barh', stacked=True)

# Configurar
plt.title('Distribución de sexo por Cluster')
plt.xlabel('Porcentaje por tipo de sexo')
plt.ylabel('Cluster')

# Ajustar leyenda
plt.legend(title='Sexo', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar el gráfico
plt.show()

Y aquí si que distribuye la mitad para cada cluster. Entonces voy a visualizar por el tota de plazas matriculaciones.

In [None]:
# Contar el número de ocurrencias de cada valor en 'Tipo de plazas_encoded' para cada cluster
conteo_tipo_plazas_por_cluster = plazas_2022.groupby(['label', 'Total plazas matriculaciones']).size().unstack()

# Normalizar los valores para obtener el porcentaje
conteo_tipo_plazas_porcentaje = conteo_tipo_plazas_por_cluster.div(conteo_tipo_plazas_por_cluster.sum(axis=1), axis=0) * 100

# Escoger un estilo 
sns.set(style="whitegrid")

# Crear el gráfico
plt.figure(figsize=(12, 8))
conteo_tipo_plazas_porcentaje.plot(kind='barh', stacked=True)

# Configurar
plt.title('Distribución de Total de  Plazas matriculaciones por Cluster')
plt.xlabel('Porcentaje del Total de Plazas')
plt.ylabel('Cluster')

# Ajustar leyenda
plt.legend(title='Tipo de Plazas', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar el gráfico
plt.show()

Y sorpresa, me está haciendo grupos por el número de registros de matriculaciones. Sinceramente no le veo el sentido, pero...

In [None]:
#calculamos los valores medios por cada columna
mean_values = plazas_2022.groupby('label')[columnas_numericas].mean()

print(mean_values)

In [None]:
#determinamos la media  por cluster 
media = plazas_2022.groupby('label')[columnas_numericas].mean().reset_index()


#creamos un gráfico de barras agrupadas
plt.figure()
sns.barplot(data=media.melt(id_vars='label'), x='label', y='value', hue='variable', palette='viridis')

#configuramos el gráfico
plt.title('Valores Medios de Reacciones por Cluster')
plt.xlabel('Cluster')
plt.ylabel('Valor Medio')
plt.legend(title='Valor medio por Cluster', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.show()

Bueno, pues con este gráfico puedo ver perfectamente como se está distribuyendo las variables en cada cluster. Y evidencia lo que he explicando anteriormente.

In [None]:
#creamos el scatter con comments y shares
sns.scatterplot(x='Total plazas matriculaciones', y='Sexo', hue='label', data=plazas_2022, alpha=0.7, palette='viridis')

#configuramos el gráfico
plt.title('Scatter Plot de Total plazas matriculaciones vs. Sexo_encoded (con Hue en Label)')
plt.xlabel('Total plazas matriculaciones')
plt.ylabel('Sexo_encoded')
plt.legend(title='Label')

plt.show()

Y haciendo un scatterplot de este modo me está agrupando los datos por sexo, y por el Total de plazas matriculaciones. Voy a aplicar 2 cluters para ver que pasa esta vez.

In [None]:
#desplegamos el método kmeans con el número de k escogido 
kmeans = KMeans(n_clusters=2).fit(df_scaler)

#predecimos los labels 
labels = kmeans.predict(df_scaler)

#creamos una nueva columna en nuestro dataset limpio con los valores de los labels
plazas_2022['label'] = labels

#contamos el número de observaciones por cluster
cluster_counts = plazas_2022['label'].value_counts()
messages = [f'Cluster {label}: {count} observaciones' for label, count in cluster_counts.items()]

#imprimimos la información
for message in messages:
    print(message)

#creamos un gráfico de pastel
plt.figure(figsize=(8, 8))
plt.pie(cluster_counts, labels=cluster_counts.index, autopct='%1.1f%%', startangle=90)

#configuramos el título
plt.title('Tamaño de cada cluster')

# Mostrar el gráfico
plt.show()

Me asigna 94,7% en el Cluster 0 y un 5,3% en el Cluster 1.

In [None]:
# Contar el número de ocurrencias de cada valor en 'Discapacidad_encoded' para cada cluster
conteo_discapacidad_por_cluster = plazas_2022.groupby(['label', 'Discapacidad']).size().unstack()

# Normalizar los valores para obtener el porcentaje
conteo_discapacidad_porcentaje = conteo_discapacidad_por_cluster.div(conteo_discapacidad_por_cluster.sum(axis=1), axis=0) * 100

# Escoger un estilo 
sns.set(style="whitegrid")

# Crear el gráfico
plt.figure(figsize=(12, 8))
conteo_discapacidad_porcentaje.plot(kind='barh', stacked=True)

# Configurar
plt.title('Distribución de Discapacidad por Cluster')
plt.xlabel('Porcentaje del Total de Discapacidad')
plt.ylabel('Cluster')

# Ajustar leyenda
plt.legend(title='Discapacidad', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar el gráfico
plt.show()

Interesante, Discapacidades en el Cluster 0 y el resto en Cluster 1. Voy a seguir mirando.

In [None]:
# Contar el número de ocurrencias de cada valor en 'Tipo de plazas_encoded' para cada cluster
conteo_tipo_plazas_por_cluster = plazas_2022.groupby(['label', 'Tipo de plazas']).size().unstack()

# Normalizar los valores para obtener el porcentaje
conteo_tipo_plazas_porcentaje = conteo_tipo_plazas_por_cluster.div(conteo_tipo_plazas_por_cluster.sum(axis=1), axis=0) * 100

# Escoger un estilo 
sns.set(style="whitegrid")

# Crear el gráfico
plt.figure(figsize=(12, 8))
conteo_tipo_plazas_porcentaje.plot(kind='barh', stacked=True)

# Configurar
plt.title('Distribución de Tipo de Plazas por Cluster')
plt.xlabel('Porcentaje del Total de Tipo de Plazas')
plt.ylabel('Cluster')

# Ajustar leyenda
plt.legend(title='Tipo de Plazas', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar el gráfico
plt.show()

Bien, asigna plazas Especiales a Cluster 0 y Plazas Ordinarias a Cluster 1.



In [None]:
# Contar el número de ocurrencias de cada valor en 'Tipo de plazas_encoded' para cada cluster
conteo_tipo_plazas_por_cluster = plazas_2022.groupby(['label', 'Sexo']).size().unstack()

# Normalizar los valores para obtener el porcentaje
conteo_tipo_plazas_porcentaje = conteo_tipo_plazas_por_cluster.div(conteo_tipo_plazas_por_cluster.sum(axis=1), axis=0) * 100

# Escoger un estilo 
sns.set(style="whitegrid")

# Crear el gráfico
plt.figure(figsize=(12, 8))
conteo_tipo_plazas_porcentaje.plot(kind='barh', stacked=True)

# Configurar
plt.title('Distribución de sexo por Cluster')
plt.xlabel('Porcentaje por tipo de sexo')
plt.ylabel('Cluster')

# Ajustar leyenda
plt.legend(title='Sexo', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar el gráfico
plt.show()

Esta vez, igual que en la anterior agrupación, reparte hombres y mujeres por igual a cada Cluster.

In [None]:
# Contar el número de ocurrencias de cada valor en 'Tipo de plazas_encoded' para cada cluster
conteo_tipo_plazas_por_cluster = plazas_2022.groupby(['label', 'Total plazas matriculaciones']).size().unstack()

# Normalizar los valores para obtener el porcentaje
conteo_tipo_plazas_porcentaje = conteo_tipo_plazas_por_cluster.div(conteo_tipo_plazas_por_cluster.sum(axis=1), axis=0) * 100

# Escoger un estilo 
sns.set(style="whitegrid")

# Crear el gráfico
plt.figure(figsize=(12, 8))
conteo_tipo_plazas_porcentaje.plot(kind='barh', stacked=True)

# Configurar
plt.title('Distribución de Total de  Plazas matriculaciones por Cluster')
plt.xlabel('Porcentaje del Total de Plazas')
plt.ylabel('Cluster')

# Ajustar leyenda
plt.legend(title='Tipo de Plazas', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar el gráfico
plt.show()

También tiene en cuenta el Total de plazas, pero entiendo que tiene más peso los argumentos anteriores.

In [None]:
#calculamos los valores medios por cada columna
mean_values = plazas_2022.groupby('label')[columnas_numericas].mean()

print(mean_values)

In [None]:
#determinamos la media  por cluster 
media = plazas_2022.groupby('label')[columnas_numericas].mean().reset_index()


#creamos un gráfico de barras agrupadas
plt.figure()
sns.barplot(data=media.melt(id_vars='label'), x='label', y='value', hue='variable', palette='viridis')

#configuramos el gráfico
plt.title('Valores Medios de Reacciones por Cluster')
plt.xlabel('Cluster')
plt.ylabel('Valor Medio')
plt.legend(title='Valor medio por Cluster', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.show()

In [None]:
#creamos el scatter 
sns.scatterplot(x='Total plazas matriculaciones', y='Sexo', hue='label', data=plazas_2022, alpha=0.7, palette='viridis')

#configuramos el gráfico
plt.title('Scatter Plot de Total plazas matriculaciones vs. Sexo_encoded (con Hue en Label)')
plt.xlabel('Total plazas matriculaciones')
plt.ylabel('Sexo_encoded')
plt.legend(title='Label')

plt.show()

CONCLUSIONES:

Partiendo que mi dataset tiene variables que no tienen relación entre ellas, ya que se trata de un dataset con registros anuales, que además son repetidos en el tiempo. También me encuentro que no tenemos una variable target, por ello se me presentaban 2 opciones de aplicación de modelo, o agrupación sin target, como es mi caso K-means, (ya que el resto de modelos de clasificación me piden expresamente que exista dicha variable) o por el contrario una predicción que tomara datos temporales sin estacionalidad. Revisé los modelos que se podrían aplicar y encontré uno la autoregresión pero tampoco lo logré.

Así que finalmente, aplicando el modelo K-mens me quedo más convencida de que la segunda opción me lo agrupa de una manera más coherente que la primera. En plazas Ordinarias y plazas Especiales.

Realmente el fin de mi proyecto a sido darme luz de la realidad que existe a nivel nacional las discapacidades especiales en nustro país. Creía que cada vez existian más casos, esa era mi sensación. Me he encontrado que en España no se está movilizando de la misma manera como se ha movilizado en Estados Unidos. Además de que llevan mucho más tiempo estuciando lo relacionado a las discapacidaes. Me encontré que practicamente no existian bases de datos relacionadas, que además lo que existía no eran datos reales, ya que existe un tardancia en la otorgación de la discapacidad por parte de las administraciones. Y que este dataset que he creado sí tiene esa transparencia real, ya que en el momento que se realiza un informe médico automáticamente se asigna una plaza de necesidades especiales.

También he podido confirmar que un 94,7% se destina a plazas Ordinarias y el resto sólo el 5,3% se destina a las plazas especiales totales a nivel nacional. Esta es la realidad de mi proyecto.