# Actividad 07: Programación con Python

## Ejercicio de clase

Esta es una tarea de análisis de datos que se deberá desarrollar con Python. Algunas preguntas son fáciles, mientras que otras son más difíciles. El objetivo principal de este curso es preparar a los estudiantes para enfrentarse a un proyecto real, y en tal dirección es que se propone esta práctica. 

Para completar esta tarea, utilice el conjunto de datos “Internet Movie Dataset” (“07.-movie_metadata.csv”) que el profesor deberá entregar. Indique la respuesta a cada uno de los siguientes pasos y el tiempo necesario para completar la tarea.
- Descargue el conjunto de datos del espacio del curso en Brightspace, movie_metadata.csv, que contiene datos sobre películas de IMDb (Internet Movie Database).
- La columna “duration” contiene datos sobre la duración de la película. ¿Cuántos valores perdidos hay en esta columna?
- Sustituye los valores que faltan en la columna “duration” por el valor medio de esta columna.
- ¿Cuál es la duración media de las películas? Da la respuesta como una cifra de punto flotante redondeada a dos decimales.
- Cree una nueva columna “movie_duration_category”, que contendrá tres categorías en función de la duración de la película:
  - Categoría “1. <90” si la película dura menos de 90 minutos.
  - Categoría “2. 90-120” si la película dura entre 90 minutos y dos horas (inclusive).
  - Categoría “3. >120” si la película dura más de dos horas.
- Construya una tabla resumen para las películas estrenadas después del año 2000 (inclusive) para enumerar el número de películas:
  - Filas de la tabla: año.
  - Columnas de la tabla: categoría de duración de la película (“<90”, “90-120”, “>120”).
  - El año de estreno debe aparecer en el formato AAAA.
- ¿Cuántas películas de entre 90 minutos y dos horas de duración se estrenaron en 2008? Tip: es posible que deba convertir la duración de las películas al tipo de datos datetime. Es recomendable investigar sobre este tipo de datos para resolver este ejercicio.
- La columna “plot_keywords” contiene palabras clave que caracterizan el argumento de la película. Utilizando los datos de esta columna, crea una nueva columna llamada “movie_plot_category”, que contenga cuatro categorías en función de las palabras clave de la columna: 
  - Categoría “amor_y_muerte” si las palabras clave incluyen tanto “love” como “death”.
  - Categoría “amor” si las palabras clave incluyen la palabra “love”.
  - Categoría “muerte” si las palabras clave incluyen la palabra “death”.
  - Categoría “otros” si las palabras clave no cumplen las condiciones anteriores.
- La columna “imdb_score” muestra la valoración de los espectadores de la película. Construya una tabla que refleje la calificación media de las películas en función de la categoría “movie_plot_category” a la que pertenecen.
- ¿Cuál es la puntuación media de las películas de la categoría “amor”? Da la respuesta en forma de cifra flotante redondeada a dos decimales.
- La columna “budget” contiene el presupuesto de la película. ¿Cuál es el presupuesto medio de todas las películas de la lista? Responda con un número entero.


### Solución

In [1]:
# Importar las librerías que se usarán
import pandas as pd

import warnings

# Configurar para ignorar las advertencias de tipo FutureWarning
warnings.simplefilter(action='ignore', category=FutureWarning)

1.	Descargue el conjunto de datos del espacio del curso en Brightspace, movie_metadata.csv, que contiene datos sobre películas de IMDb (Internet Movie Database).

In [2]:
# Leer el archivo CSV y almacenarlo en un DataFrame llamado base_movies_metadata
base_movies_metadata = pd.read_csv("07.-movie_metadata.csv")

# Hacer una copia profunda del DataFrame base_movies_metadata y asignarlo a df_movies_metadata.
# Esta sentencia en Python crea una nueva variable llamada "df_movies_metadata" que es una copia profunda de 
# otra variable llamada "base_movies_metadata". La función "copy(deep=True)" se utiliza para crear una copia 
# de un objeto en Python. Al especificar "deep=True", se realiza una copia profunda, lo que significa que se 
# crean nuevos objetos para todos los elementos internos del objeto original. Esto garantiza que cualquier 
# modificación realizada en la copia no afecte al objeto original. Por lo tanto, "df_movies_metadata" será una 
# copia independiente de "base_movies_metadata" que contiene los mismos datos. Cualquier cambio realizado en 
# "df_movies_metadata" no afectará a "base_movies_metadata", y viceversa. Esto es útil cuando se trabaja con datos 
# y se desea mantener una copia original intacta para comparaciones o referencias posteriores.
df_movies_metadata = base_movies_metadata.copy(deep=True)

# Mostrar estadísticas descriptivas del DataFrame
print(df_movies_metadata.describe())

# Mostrar los tipos de datos de las columnas del DataFrame
print(df_movies_metadata.dtypes)


       num_critic_for_reviews     duration  director_facebook_likes  \
count             4993.000000  5028.000000              4939.000000   
mean               140.194272   107.201074               686.509212   
std                121.601675    25.197441              2813.328607   
min                  1.000000     7.000000                 0.000000   
25%                 50.000000    93.000000                 7.000000   
50%                110.000000   103.000000                49.000000   
75%                195.000000   118.000000               194.500000   
max                813.000000   511.000000             23000.000000   

       actor_3_facebook_likes  actor_1_facebook_likes         gross  \
count             5020.000000             5036.000000  4.159000e+03   
mean               645.009761             6560.047061  4.846841e+07   
std               1665.041728            15020.759120  6.845299e+07   
min                  0.000000                0.000000  1.620000e+02   
25%  

2.	La columna “duration” contiene datos sobre la duración de la película. ¿Cuántos valores perdidos hay en esta columna?

In [3]:
# 2. La columna "duration" contiene datos sobre la duración de la película. ¿Cuántos valores faltantes hay en esta columna?

# Extraer la columna "duration" del DataFrame df_movies_metadata
duration = df_movies_metadata["duration"]

# Contar la cantidad de valores faltantes (NaN) en la columna "duration"
cant_nan = duration.isna().sum()

# Imprimir el resultado de la cantidad de valores faltantes
print("Hay %i valores NaN en la columna 'duration'." % cant_nan)


Hay 15 valores NaN en la columna 'duration'.


3.	Sustituye los valores que faltan en la columna “duration” por el valor medio de esta columna.

In [4]:
# 3. Reemplazar los valores faltantes en la columna "duration" con el valor medio de esta columna.

# Calcular la mediana de la columna "duration"
median = duration.mean()

# Reemplazar los valores faltantes (NaN) en la columna "duration" con la mediana
df_movies_metadata["duration"] = df_movies_metadata["duration"].fillna(median)

# Verificar los valores NaN después de reemplazar...
print("Después de reemplazar los valores NaN con la mediana de la columna, hay %i valores faltantes." % df_movies_metadata["duration"].isna().sum())


Después de reemplazar los valores NaN con la mediana de la columna, hay 0 valores faltantes.


Cuál es la duración media de las películas? Da la respuesta como una cifra de punto flotante redondeada a dos decimales.

In [5]:
# 4. ¿Cuál es la duración promedio de las películas? Proporcione la respuesta como un número de punto flotante redondeado a dos decimales.

# Calcular la duración promedio de las películas
average_length = df_movies_metadata["duration"].mean()

# Imprimir la duración promedio formateada con dos decimales
print("La duración promedio de las películas fue de {0:0.2f} minutos.".format(average_length))


La duración promedio de las películas fue de 107.20 minutos.


5.	Cree una nueva columna “movie_duration_category”, que contendrá tres categorías en función de la duración de la película:
- Categoría “1. <90” si la película dura menos de 90 minutos.
- Categoría “2. 90-120” si la película dura entre 90 minutos y dos horas (inclusive).
- Categoría “3. >120” si la película dura más de dos horas.


In [6]:
# 5. Crea una columna "movie_duration_category", que contendrá tres categorías en función de la duración de la película:
# Categoría "1. <90" si la película dura menos de 90 minutos.
# Categoría "2. 90-120" si la película dura entre 90 minutos y dos horas (inclusive).
# Categoría "3. >120" si la película dura más de dos horas.

# Crear la columna "movie_duration_category" inicialmente vacía
df_movies_metadata["movie_duration_category"] = ""

# Asignar las categorías correspondientes a cada película basándose en su duración
df_movies_metadata.loc[(pd.to_numeric(df_movies_metadata["duration"]) < 90), "movie_duration_category"] = "1. <90"
df_movies_metadata.loc[(pd.to_numeric(df_movies_metadata["duration"]) >= 90) & (pd.to_numeric(df_movies_metadata["duration"]) <= 120), "movie_duration_category"] = "2. 90-120"
df_movies_metadata.loc[(pd.to_numeric(df_movies_metadata["duration"]) > 120), "movie_duration_category"] = "3. >120"

# Mostrar las columnas "duration" y "movie_duration_category"
df_movies_metadata[["duration", "movie_duration_category"]]


Unnamed: 0,duration,movie_duration_category
0,178.000000,3. >120
1,169.000000,3. >120
2,148.000000,3. >120
3,164.000000,3. >120
4,107.201074,2. 90-120
...,...,...
5038,87.000000,1. <90
5039,43.000000,1. <90
5040,76.000000,1. <90
5041,100.000000,2. 90-120


6.	Construya una tabla resumen para las películas estrenadas después del año 2000 (inclusive) para enumerar el número de películas:
- Filas de la tabla: año.
- Columnas de la tabla: categoría de duración de la película (“<90”, “90-120”, “>120”).
- El año de estreno debe aparecer en el formato AAAA.


In [7]:
# 6. Construye una tabla resumen para las películas estrenadas después del año 2000 (inclusive) para enumerar el número de películas:
# • Filas de la tabla: año
# • Columnas de la tabla: categoría de duración de la película ("<90", "90-120", ">120")
# • El año de estreno debe aparecer en el formato YYYY.

cols_names = ["año", "categoría de duración"]

sub_table = df_movies_metadata[pd.to_numeric(df_movies_metadata["title_year"]) >= 2000]
sub_table = sub_table[["title_year","movie_duration_category"]]
sub_table.columns = cols_names
sub_table = sub_table.groupby(["año", "categoría de duración"]).size().unstack().fillna(0).astype(int)
sub_table


categoría de duración,1. <90,2. 90-120,3. >120
año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000.0,25,112,34
2001.0,29,120,39
2002.0,36,146,27
2003.0,31,108,30
2004.0,30,142,42
2005.0,31,142,48
2006.0,40,146,53
2007.0,31,130,43
2008.0,29,160,36
2009.0,42,178,40


7.	¿Cuántas películas de entre 90 minutos y dos horas de duración se estrenaron en 2008?

Tip: es posible que deba convertir la duración de las películas al tipo de datos datetime. Es recomendable investigar sobre este tipo de datos para resolver este ejercicio.

In [8]:
# 7. ¿Cuántas películas de entre 90 minutos y dos horas de duración se estrenaron en 2008?

films_released = len(df_movies_metadata[(df_movies_metadata["movie_duration_category"] == "2. 90-120") & (df_movies_metadata["title_year"] == 2008)].index)
print("Se han estrenado %i películas en 2008 con una duración entre 90 y 120 minutos." % films_released)


Se han estrenado 160 películas en 2008 con una duración entre 90 y 120 minutos.


8.	La columna “plot_keywords” contiene palabras clave que caracterizan el argumento de la película. Utilizando los datos de esta columna, crea una nueva columna llamada “movie_plot_category”, que contenga cuatro categorías en función de las palabras clave de la columna: 
- Categoría “amor_y_muerte” si las palabras clave incluyen tanto “love” como “death”.
- Categoría “amor” si las palabras clave incluyen la palabra “love”.
- Categoría “muerte” si las palabras clave incluyen la palabra “death”.
- Categoría “otros” si las palabras clave no cumplen las condiciones anteriores.


In [9]:
# 8. La columna "plot_keywords" contiene palabras clave que caracterizan la trama de la película. Utilizando los datos de esta columna, crea una nueva columna llamada "movie_plot_category" para contener cuatro categorías según las palabras clave en la columna:
# Categoría "amor_y_muerte" si las palabras clave incluyen tanto "amor" como "muerte".
# Categoría "amor" si las palabras clave incluyen la palabra "amor".
# Categoría "muerte" si las palabras clave incluyen la palabra "muerte".
# Categoría "otros" si las palabras clave no cumplen las condiciones anteriores.

# Crear una nueva columna "movie_plot_category" en el DataFrame df_movies_metadata
df_movies_metadata["movie_plot_category"] = ""

# Verificar si hay valores faltantes (NaN) en la columna "plot_keywords" y mostrar la cantidad de valores faltantes
cant_nan = df_movies_metadata["plot_keywords"].isna().sum()
df_movies_metadata["plot_keywords"].isna().sum()
df_movies_metadata["plot_keywords"] = df_movies_metadata["plot_keywords"].fillna("")

# Categorizar las películas según las palabras clave en la columna "plot_keywords"
# Categoría "amor_y_muerte" si las palabras clave incluyen tanto "amor" como "muerte"
df_movies_metadata.loc[(df_movies_metadata["plot_keywords"].str.contains("love", case=False)) & 
                       (df_movies_metadata["plot_keywords"].str.contains("death", case=False)), "movie_plot_category"] = "love_and_death"

# Categoría "amor" si las palabras clave incluyen la palabra "amor"
df_movies_metadata.loc[(df_movies_metadata["plot_keywords"].str.contains("love", case=False)), "movie_plot_category"] = "love"

# Categoría "muerte" si las palabras clave incluyen la palabra "muerte"
df_movies_metadata.loc[(df_movies_metadata["plot_keywords"].str.contains("death", case=False)), "movie_plot_category"] = "death"

# Categoría "otros" si las palabras clave no cumplen ninguna de las condiciones anteriores
df_movies_metadata.loc[(~df_movies_metadata["plot_keywords"].str.contains("love", case=False)) & 
                       (~df_movies_metadata["plot_keywords"].str.contains("death", case=False)), "movie_plot_category"] = "other"

# Mostrar las columnas "plot_keywords" y "movie_plot_category" del DataFrame df_movies_metadata
print(df_movies_metadata[["plot_keywords", "movie_plot_category"]])

                                          plot_keywords movie_plot_category
0                avatar|future|marine|native|paraplegic               other
1     goddess|marriage ceremony|marriage proposal|pi...               other
2                   bomb|espionage|sequel|spy|terrorist               other
3     deception|imprisonment|lawlessness|police offi...               other
4                                                                     other
...                                                 ...                 ...
5038             fraud|postal worker|prison|theft|trial               other
5039       cult|fbi|hideout|prison escape|serial killer               other
5040                                                                  other
5041                                                                  other
5042  actress name in title|crush|date|four word tit...               other

[5043 rows x 2 columns]


9.	La columna “imdb_score” muestra la valoración de los espectadores de la película. Construya una tabla que refleje la calificación media de las películas en función de la categoría “movie_plot_category” a la que pertenecen.

In [10]:
# 9. La columna "imdb_score" muestra la calificación de los espectadores para la película. Construye una tabla que refleje la 
# calificación promedio de las películas según la categoría "movie_plot_category" a la que pertenecen.

# Crear un DataFrame ave_rating para almacenar la información de la calificación promedio de las películas
ave_rating = pd.DataFrame(columns=["película", "movie_plot_category"])
ave_rating[["película", "movie_plot_category"]] = df_movies_metadata[["movie_title", "movie_plot_category"]]

# Calcular la calificación promedio de las películas según la categoría "movie_plot_category"
groups = pd.DataFrame(df_movies_metadata.groupby("movie_plot_category")["imdb_score"].mean())

# Combinar la información de calificación promedio con el DataFrame ave_rating utilizando la categoría "movie_plot_category" como clave
ave_rating = pd.merge(ave_rating, groups, how="inner", on=["movie_plot_category"])

# Mostrar el DataFrame ave_rating que contiene la calificación promedio de las películas según la categoría "movie_plot_category"
print(ave_rating)


                                               película movie_plot_category  \
0                                               Avatar                other   
1             Pirates of the Caribbean: At World's End                other   
2                                              Spectre                other   
3                                The Dark Knight Rises                other   
4     Star Wars: Episode VII - The Force Awakens    ...               other   
...                                                 ...                 ...   
5038                           Signed Sealed Delivered                other   
5039                         The Following                            other   
5040                              A Plague So Pleasant                other   
5041                                  Shanghai Calling                other   
5042                                 My Date with Drew                other   

      imdb_score  
0       6.431422  
1       6.431

10.	¿Cuál es la puntuación media de las películas de la categoría “amor”? Da la respuesta en forma de cifra flotante redondeada a dos decimales.

In [11]:
# 10. ¿Cuál es la calificación promedio de las películas en la categoría "love"? Dar la respuesta como un número de punto flotante redondeado a dos decimales.

# Imprimir la calificación promedio de las películas en la categoría "love"
print("La calificación promedio de las películas en la categoría 'love' es {0:0.2f} ".format(groups.loc["love"][0]))


La calificación promedio de las películas en la categoría 'love' es 6.58 


11.	La columna “budget” contiene el presupuesto de la película. ¿Cuál es el presupuesto medio de todas las películas de la lista? Responda con un número entero.

In [12]:
# 11. La columna "budget" contiene el presupuesto de la película. ¿Cuál es el presupuesto mediano de todas las películas de la lista? Dar la respuesta como un número entero.

# Las columnas de presupuesto contienen otros valores además de numéricos
df_movies_metadata.dtypes

# Se deben eliminar los valores no numéricos
df_movies_metadata["budget"] = df_movies_metadata["budget"].str.replace("$","")

# Convertir la columna "budget" a tipo numérico
budget = pd.to_numeric(df_movies_metadata["budget"])

# Calcular el presupuesto mediano como un número entero
median_budget = int(budget.median())

# Imprimir el presupuesto mediano como un número entero
print("El presupuesto mediano expresado como un número entero es de $%i USD" % median_budget)


El presupuesto mediano expresado como un número entero es de $15000000 USD


## Tarea

-	Realizar la práctica descrita en el documento “Tarea - Ejercitación de programación con Python.pdf”.
-	Documentar el ejercicio realizado en GitHub.
-	La tarea se evaluará de acuerdo con los documentos “Política para el uso de Github.pdf” y “Rúbrica para la evaluación de códigos fuente.pdf”.

Material complementario: https://aprendeconalf.es/docencia/python/ejercicios/pandas/


Los archivos emisiones-2016.csv, emisiones-2017.csv, emisiones-2018.csv y emisiones-2019.csv, contienen datos sobre las emisiones contaminates en la ciudad de Madrid en los años 2016, 2017, 2018 y 2019 respectivamente. Escribir un programa con los siguientes requisitos:
1.	Generar un DataFrame con los datos de los cuatro archivos.
2.	Filtrar las columnas del DataFrame para quedarse con las columnas ESTACION, MAGNITUD, AÑO, MES y las correspondientes a los días D01, D02, etc.
3.	Reestructurar el DataFrame para que los valores de los contaminantes de las columnas de los días aparezcan en una única columna.
4.	Añadir una columna con la fecha a partir de la concatenación del año, el mes y el día (usar el módulo datetime).
5.	Eliminar las filas con fechas no válidas (utilizar la función isnat del módulo numpy) y ordenar el DataFrame por estaciones contaminantes y fecha.
6.	Mostrar por pantalla las estaciones y los contaminantes disponibles en el DataFrame.
7.	Crear una función que reciba una estación, un contaminante y un rango de fechas y devuelva una serie con las emisiones del contaminante dado en la estación y rango de fechas dado.
8.	Mostrar un resumen descriptivo (mínimo, máximo, media, etc.) para cada contaminante.
9.	Mostrar un resumen descriptivo para cada contaminante por distritos.
10.	Crear una función que reciba una estación y un contaminante y devuelva un resumen descriptivo de las emisiones del contaminante indicado en la estación indicada.
11.	Crear una función que devuelva las emisiones medias mensuales de un contaminante y un año dados para todos las estaciones.
12.	Crear un función que reciba una estación de medición y devuelva un DataFrame con las medias mensuales de los distintos tipos de contaminantes.


1.	Generar un DataFrame con los datos de los cuatro archivos.

In [13]:
# Importando las librerías que se usarán
import pandas as pd    # Importa la biblioteca pandas y la renombra como pd
import numpy as np     # Importa la biblioteca numpy y la renombra como np
import datetime as dt  # Importa la biblioteca datetime y la renombra como dt


In [14]:
# Cargando los datos
emisiones_2016 = pd.read_csv('07.-emisiones-2016.csv', sep=';')
emisiones_2017 = pd.read_csv('07.-emisiones-2017.csv', sep=';')
emisiones_2018 = pd.read_csv('07.-emisiones-2018.csv', sep=';')
emisiones_2019 = pd.read_csv('07.-emisiones-2019.csv', sep=';')

# Concatenando los datos
emisiones = pd.concat([emisiones_2016, emisiones_2017, emisiones_2018, emisiones_2019])
emisiones

Unnamed: 0,PROVINCIA,MUNICIPIO,ESTACION,MAGNITUD,PUNTO_MUESTREO,ANO,MES,D01,V01,D02,...,D27,V27,D28,V28,D29,V29,D30,V30,D31,V31
0,28,79,4,1,28079004_1_38,2016,1,8.0,V,7.0,...,9.0,V,7.0,V,8.0,V,9.0,V,9.0,V
1,28,79,4,1,28079004_1_38,2016,2,12.0,V,13.0,...,7.0,V,8.0,V,9.0,V,0.0,N,0.0,N
2,28,79,4,1,28079004_1_38,2016,3,11.0,V,10.0,...,8.0,V,7.0,V,8.0,V,10.0,V,8.0,V
3,28,79,4,1,28079004_1_38,2016,4,8.0,V,9.0,...,9.0,V,8.0,V,8.0,V,8.0,V,0.0,N
4,28,79,4,1,28079004_1_38,2016,5,7.0,V,8.0,...,7.0,V,7.0,V,7.0,V,7.0,V,7.0,V
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1831,28,79,60,14,28079060_14_6,2019,8,94.0,V,104.0,...,88.0,V,90.0,V,99.0,V,108.0,V,98.0,V
1832,28,79,60,14,28079060_14_6,2019,9,88.0,V,82.0,...,54.0,V,68.0,V,70.0,V,55.0,V,0.0,N
1833,28,79,60,14,28079060_14_6,2019,10,44.0,V,75.0,...,28.0,V,33.0,V,16.0,V,19.0,V,47.0,V
1834,28,79,60,14,28079060_14_6,2019,11,41.0,V,55.0,...,55.0,V,52.0,V,47.0,V,56.0,V,0.0,N


2.	Filtrar las columnas del DataFrame para quedarse con las columnas ESTACION, MAGNITUD, AÑO, MES y las correspondientes a los días D01, D02, etc.

In [15]:
# Filtrar las columnas del DataFrame para quedarse con las columnas ESTACION, MAGNITUD, AÑO, MES y las correspondientes a los días D01, D02, etc.
columnas = ['ESTACION', 'MAGNITUD', 'ANO', 'MES']  # Lista de columnas iniciales a mantener

# Extender la lista de columnas con las que comienzan con 'D'
columnas.extend([col for col in emisiones if col.startswith('D')])

# Filtrar el DataFrame para mantener solo las columnas seleccionadas
emisiones = emisiones[columnas]
emisiones

Unnamed: 0,ESTACION,MAGNITUD,ANO,MES,D01,D02,D03,D04,D05,D06,...,D22,D23,D24,D25,D26,D27,D28,D29,D30,D31
0,4,1,2016,1,8.0,7.0,6.0,6.0,7.0,6.0,...,10.0,11.0,11.0,13.0,12.0,9.0,7.0,8.0,9.0,9.0
1,4,1,2016,2,12.0,13.0,9.0,9.0,11.0,9.0,...,11.0,10.0,9.0,8.0,7.0,7.0,8.0,9.0,0.0,0.0
2,4,1,2016,3,11.0,10.0,9.0,9.0,7.0,8.0,...,8.0,8.0,9.0,9.0,9.0,8.0,7.0,8.0,10.0,8.0
3,4,1,2016,4,8.0,9.0,9.0,8.0,8.0,9.0,...,8.0,8.0,8.0,8.0,9.0,9.0,8.0,8.0,8.0,0.0
4,4,1,2016,5,7.0,8.0,9.0,9.0,8.0,8.0,...,7.0,7.0,8.0,7.0,7.0,7.0,7.0,7.0,7.0,7.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1831,60,14,2019,8,94.0,104.0,106.0,99.0,77.0,82.0,...,86.0,97.0,104.0,96.0,85.0,88.0,90.0,99.0,108.0,98.0
1832,60,14,2019,9,88.0,82.0,80.0,92.0,79.0,75.0,...,59.0,46.0,49.0,69.0,57.0,54.0,68.0,70.0,55.0,0.0
1833,60,14,2019,10,44.0,75.0,44.0,54.0,65.0,68.0,...,37.0,39.0,45.0,21.0,23.0,28.0,33.0,16.0,19.0,47.0
1834,60,14,2019,11,41.0,55.0,79.0,65.0,64.0,51.0,...,38.0,75.0,69.0,45.0,35.0,55.0,52.0,47.0,56.0,0.0


3.	Reestructurar el DataFrame para que los valores de los contaminantes de las columnas de los días aparezcan en una única columna.

In [16]:
# Reestructurar el DataFrame para que los valores de los contaminantes de las columnas de los días aparezcan en una única columna.
emisiones = emisiones.melt(id_vars=['ESTACION', 'MAGNITUD', 'ANO', 'MES'], var_name='DIA', value_name='VALOR')
emisiones

Unnamed: 0,ESTACION,MAGNITUD,ANO,MES,DIA,VALOR
0,4,1,2016,1,D01,8.0
1,4,1,2016,2,D01,12.0
2,4,1,2016,3,D01,11.0
3,4,1,2016,4,D01,8.0
4,4,1,2016,5,D01,7.0
...,...,...,...,...,...,...
225241,60,14,2019,8,D31,98.0
225242,60,14,2019,9,D31,0.0
225243,60,14,2019,10,D31,47.0
225244,60,14,2019,11,D31,0.0


4.	Añadir una columna con la fecha a partir de la concatenación del año, el mes y el día (usar el módulo `datetime`).

In [17]:
# Crear una nueva columna con las fechas a partir del año, mes y día
# Primero eliminamos el caracter D del comienzo de la columna de los días
emisiones['DIA'] = emisiones.DIA.str.strip('D')

# Concatenamos las columnas del año, mes y día
emisiones['FECHA'] = emisiones.ANO.apply(str) + '/' + emisiones.MES.apply(str) + '/' + emisiones.DIA.apply(str)

# Convertimos la nueva columna al tipo fecha
emisiones['FECHA'] = pd.to_datetime(emisiones.FECHA, format='%Y/%m/%d', infer_datetime_format=True, errors='coerce')
emisiones

  emisiones['FECHA'] = pd.to_datetime(emisiones.FECHA, format='%Y/%m/%d', infer_datetime_format=True, errors='coerce')


Unnamed: 0,ESTACION,MAGNITUD,ANO,MES,DIA,VALOR,FECHA
0,4,1,2016,1,01,8.0,2016-01-01
1,4,1,2016,2,01,12.0,2016-02-01
2,4,1,2016,3,01,11.0,2016-03-01
3,4,1,2016,4,01,8.0,2016-04-01
4,4,1,2016,5,01,7.0,2016-05-01
...,...,...,...,...,...,...,...
225241,60,14,2019,8,31,98.0,2019-08-31
225242,60,14,2019,9,31,0.0,NaT
225243,60,14,2019,10,31,47.0,2019-10-31
225244,60,14,2019,11,31,0.0,NaT


5.	Eliminar las filas con fechas no válidas (utilizar la función `isnat` del módulo `numpy`) y ordenar el DataFrame por estaciones contaminantes y fecha.

In [18]:
# Eliminar las filas con fechas no válidas
emisiones = emisiones.drop(emisiones[np.isnat(emisiones.FECHA)].index)

# Ordenar el dataframe por estación, magnitud y fecha
emisiones.sort_values(['ESTACION', 'MAGNITUD', 'FECHA'])
emisiones

Unnamed: 0,ESTACION,MAGNITUD,ANO,MES,DIA,VALOR,FECHA
0,4,1,2016,1,01,8.0,2016-01-01
1,4,1,2016,2,01,12.0,2016-02-01
2,4,1,2016,3,01,11.0,2016-03-01
3,4,1,2016,4,01,8.0,2016-04-01
4,4,1,2016,5,01,7.0,2016-05-01
...,...,...,...,...,...,...,...
225238,60,14,2019,5,31,85.0,2019-05-31
225240,60,14,2019,7,31,92.0,2019-07-31
225241,60,14,2019,8,31,98.0,2019-08-31
225243,60,14,2019,10,31,47.0,2019-10-31


6.	Mostrar por pantalla las estaciones y los contaminantes disponibles en el DataFrame.

In [19]:
# Mostrar las estaciones disponibles
print('Estaciones:', emisiones.ESTACION.unique())

# Mostrar los contaminantes disponibles
print('Contaminantes:', emisiones.MAGNITUD.unique())


Estaciones: [ 4  8 11 16 17 18 24 27 35 36 38 39 40 47 48 49 50 54 55 56 57 58 59 60]
Contaminantes: [ 1  6  7  8 12  9 10 14 20 30 35 42 43 44]


7.	Crear una función que reciba una estación, un contaminante y un rango de fechas y devuelva una serie con las emisiones del contaminante dado en la estación y rango de fechas dado.

In [20]:
def evolucion(estacion, contaminante, desde, hasta):
    """
    Devuelve las emisiones de un contaminante dado en una estación y rango de fechas dado.

    Args:
        estacion (int): Número de la estación.
        contaminante (int): Número del contaminante.
        desde (datetime): Fecha de inicio del rango.
        hasta (datetime): Fecha de fin del rango.

    Returns:
        pandas.Series: Columna 'VALOR' con las emisiones encontradas, ordenadas por fecha.

    """
    return emisiones[(emisiones.ESTACION == estacion) & (emisiones.MAGNITUD == contaminante) & (emisiones.FECHA >= desde) & (emisiones.FECHA <= hasta)].sort_values('FECHA').VALOR

# Resumen descriptivo por contaminantes
emisiones.groupby('MAGNITUD').VALOR.describe()

# Resumen descriptivo por contaminantes y distritos
emisiones.groupby(['ESTACION', 'MAGNITUD']).VALOR.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
ESTACION,MAGNITUD,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
4,1,1461.0,7.329911,16.379050,1.0,4.0,7.0,9.0,610.0
4,6,1461.0,0.411499,0.172902,0.1,0.3,0.4,0.5,1.3
4,7,1461.0,31.939767,37.667968,0.0,8.0,16.0,42.0,239.0
4,8,1461.0,44.398357,17.766063,0.0,31.0,43.0,55.0,105.0
4,12,1461.0,93.341547,72.436531,0.0,44.0,69.0,119.0,467.0
...,...,...,...,...,...,...,...,...,...
60,7,1461.0,12.326489,19.593109,1.0,2.0,4.0,12.0,151.0
60,8,1461.0,31.125941,18.101896,3.0,18.0,27.0,41.0,101.0
60,10,1461.0,17.033539,12.205022,1.0,9.0,14.0,21.0,215.0
60,12,1461.0,50.023956,45.933843,6.0,22.0,33.0,60.0,328.0


8.	Mostrar un resumen descriptivo (mínimo, máximo, media, etc.) para cada contaminante.

In [21]:
# Función que devuelve un resumen descriptivo de las emisiones de un contaminante dado en una estación dada
def resumen(estacion, contaminante):
    """
    Devuelve un resumen descriptivo de las emisiones de un contaminante dado en una estación dada.

    Args:
        estacion (int): Número de la estación.
        contaminante (int): Número del contaminante.

    Returns:
        pandas.Series: Resumen descriptivo de las emisiones, incluyendo el conteo, media, desviación estándar, mínimo, percentiles y máximo.

    """
    return emisiones[(emisiones.ESTACION == estacion) & (emisiones.MAGNITUD == contaminante)].VALOR.describe()

# Resumen de Dióxido de Nitrógeno en Plaza Elíptica
print('Resumen Dióxido de Nitrógeno en Plaza Elíptica:\n', resumen(56, 8),'\n', sep='')

# Resumen de Dióxido de Nitrógeno en Plaza del Carmen
print('Resumen Dióxido de Nitrógeno en Plaza del Carmen:\n', resumen(35, 8), sep='')

Resumen Dióxido de Nitrógeno en Plaza Elíptica:
count    1461.000000
mean       55.113621
std        21.911483
min         0.000000
25%        39.000000
50%        53.000000
75%        69.000000
max       142.000000
Name: VALOR, dtype: float64

Resumen Dióxido de Nitrógeno en Plaza del Carmen:
count    1461.000000
mean       43.260096
std        16.384656
min         0.000000
25%        32.000000
50%        43.000000
75%        54.000000
max        96.000000
Name: VALOR, dtype: float64


11.	Crear una función que devuelva las emisiones medias mensuales de un contaminante y un año dados para todos las estaciones.

In [22]:
# Función que devuelve una serie con las emisiones medias mensuales de un contaminante y un año para todas las estaciones
def evolucion_mensual(contaminante, año):
    """
    Devuelve una serie con las emisiones medias mensuales de un contaminante y un año para todas las estaciones.

    Args:
        contaminante (int): Número del contaminante.
        año (int): Año para el cual se desea obtener las emisiones.

    Returns:
        pandas.DataFrame: Serie con las emisiones medias mensuales por estación, donde las columnas son los meses y los índices son las estaciones.

    """
    return emisiones[(emisiones.MAGNITUD == contaminante) & (emisiones.ANO == año)].groupby(['ESTACION', 'MES']).VALOR.mean().unstack('MES')

# Evolución del dióxido de nitrógeno en 2019
evolucion_mensual(8, 2019)


MES,1,2,3,4,5,6,7,8,9,10,11,12
ESTACION,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
4,61.129032,62.0,44.677419,36.033333,33.451613,36.7,36.83871,34.064516,35.4,33.451613,21.8,40.806452
8,74.516129,77.071429,57.064516,48.466667,43.032258,41.933333,36.387097,24.612903,45.233333,55.0,42.033333,49.870968
11,58.516129,59.571429,37.709677,32.066667,26.064516,31.733333,33.451613,28.322581,36.966667,48.451613,31.8,47.612903
16,54.387097,56.892857,35.451613,27.933333,20.354839,24.666667,25.258065,24.548387,31.266667,41.935484,29.5,40.677419
17,65.967742,70.142857,43.16129,29.4,22.548387,25.133333,27.16129,29.322581,36.933333,47.774194,30.566667,44.516129
18,55.16129,54.821429,35.645161,24.3,19.967742,21.033333,22.322581,23.419355,25.833333,41.225806,25.4,39.193548
24,37.516129,38.464286,21.645161,13.1,10.806452,12.0,13.322581,13.903226,20.6,27.0,12.166667,26.258065
27,47.580645,48.214286,35.709677,27.566667,22.903226,26.233333,27.032258,31.677419,35.966667,49.0,30.133333,45.774194
35,54.548387,51.857143,31.903226,21.7,22.548387,26.033333,35.322581,33.096774,37.533333,45.193548,30.133333,41.483871
36,58.870968,58.678571,37.645161,29.333333,21.354839,24.8,25.677419,25.935484,31.5,43.83871,32.3,43.354839
