# Actividad 1 Programación y entorno de trabajo para la IA

### Realizado por: **Marco Fernández Pérez**

## Parte 1

Comenzamos con la importación de las librerías que se van a usar durante la actividad.

In [1]:
import pandas as pd

Cargamos los datos de los tres trimestres leyendo los archivos ```.csv```.

In [2]:
trimestre1 = pd.read_csv('./Hogwards - 20241T.csv')
trimestre2 = pd.read_csv('./Hogwards - 20242T.csv')
trimestre3 = pd.read_csv('./Hogwards - 20243T.csv')

Mostramos las primeras 5 entradas del primer trimestre para observar la forma de los datos.

In [3]:
trimestre1.head()

Unnamed: 0,ID,Name,Descriptive Name,Description,Domain,Owner,IsCompliance,Status,Version,NumberUsers
0,DP001,ProfeciaMonitor,Monitor de Pociones,"Data Product relacionado con adivinacion, util...",Adivinacion,Sybill Trelawney,True,Production,1.4.0,46
1,DP002,CriaturaWatch,Sistema de Seguimiento de Hechizos,"Data Product relacionado con pociones, utiliza...",Pociones,Severus Snape,True,Production,2.6.9,100
2,DP003,EstelarMap,Aplicacion de Transfiguraciones,"Data Product relacionado con pociones, utiliza...",Pociones,Severus Snape,False,Deprecated,0.4.1,38
3,DP004,Transfigurator,Monitor de Pociones,"Data Product relacionado con transformaciones,...",Transformaciones,Minerva McGonagall,False,Development,2.9.6,99
4,DP005,CriaturaWatch,Vigilante de Criaturas Magicas,"Data Product relacionado con transformaciones,...",Transformaciones,Minerva McGonagall,True,Production,2.3.7,51


Ahora miramos la forma de cada trimestre para ver el número de entradas.

In [4]:
trimestre1.shape

(50, 10)

In [5]:
trimestre2.shape

(70, 10)

In [6]:
trimestre3.shape

(87, 10)

Observamos si hay algún nulo.

In [7]:
trimestre1.isna().sum()

ID                  0
Name                0
Descriptive Name    0
Description         0
Domain              0
Owner               0
IsCompliance        0
Status              0
Version             0
NumberUsers         0
dtype: int64

In [8]:
trimestre2.isna().sum()

ID                  0
Name                0
Descriptive Name    0
Description         0
Domain              0
Owner               0
IsCompliance        0
Status              0
Version             0
NumberUsers         0
dtype: int64

In [9]:
trimestre3.isna().sum()

ID                  0
Name                0
Descriptive Name    0
Description         0
Domain              0
Owner               0
IsCompliance        0
Status              0
Version             0
NumberUsers         0
dtype: int64

Ya vemos que no hay ningún dato nulo.

## Estado actual de los *Data Products*

Ahora pasamos a conseguir el número de *Data Products* existen actualmente. Esto lo logramos juntando los 3 trimestres por el ID y contamos sin los duplicados.

In [10]:
merge = pd.merge(trimestre1, trimestre2, how='outer', on='ID')

merge = pd.merge(merge, trimestre3, how='outer', on='ID')

Number_of_Products = merge['ID'].nunique()

Number_of_Products

87

Ahora, buscamos el número de productos para cada dominio.

In [11]:
Number_of_Products_by_Domain = merge.groupby('Domain')['ID'].nunique()

Number_of_Products_by_Domain

Domain
Adivinacion                         13
Astronomia                           7
Cuidado de Criaturas Magicas         7
Defensa Contra las Artes Oscuras    10
Encantamientos                       8
Herbologia                          10
Historia de la Magia                12
Pociones                            11
Transformaciones                     9
Name: ID, dtype: int64

Por último, buscamos el número de productos para cada estado.

In [12]:
Number_of_Products_by_Status = merge.groupby('Status')['ID'].nunique()

Number_of_Products_by_Status

Status
Deprecated     21
Development    18
Planned        24
Production     24
Name: ID, dtype: int64

Para apreciar qué areas de Hogwarts están mejor y peor preparadas, sacamos el número de productos de cada dominio dividido por cada estado.

In [13]:
Number_of_Products_by_Domain_and_Status = (
    merge.groupby(['Domain', 'Status'])['ID']
    .nunique()
    .unstack(fill_value=0)
    .reset_index()
)

Number_of_Products_by_Domain_and_Status

Status,Domain,Deprecated,Development,Planned,Production
0,Adivinacion,1,3,2,7
1,Astronomia,1,1,3,2
2,Cuidado de Criaturas Magicas,2,0,2,3
3,Defensa Contra las Artes Oscuras,1,2,6,1
4,Encantamientos,3,3,0,2
5,Herbologia,3,0,6,1
6,Historia de la Magia,3,5,3,1
7,Pociones,3,2,1,5
8,Transformaciones,4,2,1,2


## Análisis trimestral de los *Data Products* en estado "Planned" o "Production"

Ahora, pasaremos al análisis trimestral de los *Data Products* en estado "Planned" o "Production". Comenzamos filtrando los *Data Products* cuyo estado es **Planned** o **Production**.

In [14]:
trimestre1_planned_o_production = trimestre1[trimestre1['Status'].isin(['Planned', 'Production'])]
trimestre2_planned_o_production = trimestre2[trimestre2['Status'].isin(['Planned', 'Production'])]
trimestre3_planned_o_production = trimestre3[trimestre3['Status'].isin(['Planned', 'Production'])]

Ahora, vamos sacando las respuestas a las preguntas para el trimestre 1 y después sacamos esas respuestas para el resto de trimestres.

In [15]:
trimestre1_planned_o_production_normas_compliance = trimestre1_planned_o_production[trimestre1_planned_o_production['IsCompliance'] == True].shape[0]
trimestre1_planned_o_production_normas_compliance

14

Pasamos al conteo de usuarios usando los *Data Products* por cada area.

In [16]:
trimestre1_planned_o_production_usuarios_por_area = trimestre1_planned_o_production.groupby('Domain')['NumberUsers'].sum()
trimestre1_planned_o_production_usuarios_por_area

Domain
Adivinacion                         259
Astronomia                          363
Cuidado de Criaturas Magicas        183
Defensa Contra las Artes Oscuras    177
Encantamientos                      200
Herbologia                          372
Historia de la Magia                 56
Pociones                            288
Transformaciones                     78
Name: NumberUsers, dtype: int64

In [17]:
trimestre2_planned_o_production_normas_compliance = trimestre2_planned_o_production[trimestre2_planned_o_production['IsCompliance'] == True].shape[0]
trimestre3_planned_o_production_normas_compliance = trimestre3_planned_o_production[trimestre3_planned_o_production['IsCompliance'] == True].shape[0]

In [18]:
trimestre2_planned_o_production_usuarios_por_area = trimestre2_planned_o_production.groupby('Domain')['NumberUsers'].sum()
trimestre3_planned_o_production_usuarios_por_area = trimestre3_planned_o_production.groupby('Domain')['NumberUsers'].sum()

## Análisis trimestral de los *Data Products* "Deprecated"

Comenzamos filtrando los *Data Products* por el estado **Deprecated**.

In [19]:
trimestre1_deprecated = trimestre1[trimestre1['Status'] == 'Deprecated']
trimestre2_deprecated = trimestre2[trimestre2['Status'] == 'Deprecated']
trimestre3_deprecated = trimestre3[trimestre3['Status'] == 'Deprecated']

Ahora agrupamos según el dominio.

In [20]:
trimestre1_deprecated_por_area = trimestre1_deprecated.groupby('Domain')['ID'].nunique()
trimestre2_deprecated_por_area = trimestre2_deprecated.groupby('Domain')['ID'].nunique()
trimestre3_deprecated_por_area = trimestre3_deprecated.groupby('Domain')['ID'].nunique()

Vamos a conseguir el dato de cuántos usuarios usan estos *Data Products* que ya no están en servicio

In [23]:
trimestre1_deprecated_por_area_num_usuarios = trimestre1_deprecated['NumberUsers'].sum()
trimestre2_deprecated_por_area_num_usuarios = trimestre2_deprecated['NumberUsers'].sum()
trimestre3_deprecated_por_area_num_usuarios = trimestre3_deprecated['NumberUsers'].sum()

## Análisis de los funcionarios (Owners) por cada trimestre

Comenzamos sacando cuántos funcionarios están trabajando y cuántos *Data Products* (por estado) tienen asignados


In [36]:
trimestre1_owners = merge.groupby(['Owner', 'Status'])['ID'].nunique().unstack(fill_value=0).reset_index()
trimestre2_owners = merge.groupby(['Owner', 'Status'])['ID'].nunique().unstack(fill_value=0).reset_index()
trimestre3_owners = merge.groupby(['Owner', 'Status'])['ID'].nunique().unstack(fill_value=0).reset_index()

Ahora, pasamos a conseguir para cada dominio, quienes son los 3 funcionarios con más usuarios en sus *Data Products* en estado "Planned" o "Production".

In [41]:
trimestre1_owners_por_dominio_ordenados_por_usuarios = trimestre1[trimestre1['Status'].isin(['Planned', 'Production'])].groupby(['Domain', 'Owner'])['NumberUsers'].sum().reset_index().sort_values(['Domain', 'NumberUsers'], ascending=[True, False])
trimestre2_owners_por_dominio_ordenados_por_usuarios = trimestre2[trimestre2['Status'].isin(['Planned', 'Production'])].groupby(['Domain', 'Owner'])['NumberUsers'].sum().reset_index().sort_values(['Domain', 'NumberUsers'], ascending=[True, False])
trimestre3_owners_por_dominio_ordenados_por_usuarios = trimestre3[trimestre3['Status'].isin(['Planned', 'Production'])].groupby(['Domain', 'Owner'])['NumberUsers'].sum().reset_index().sort_values(['Domain', 'NumberUsers'], ascending=[True, False])

## Parte 2