# VISUALIZACION DEL IMPACTO DEL COVID-19 EN US 

Este dataset proporciona información detallada sobre casos confirmados y probables,muertes, hospitalizaciones, pruebas realizadas y otros datos relevantes relacionados con la pandemia de COVID-19 en diferentes estados o territorios.

## Línea de importación de librerías y dataset


In [10]:
import requests 
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
import plotly.express as px 
import us

ModuleNotFoundError: No module named 'us'

In [None]:
# Configuramos las opciones de visualización para mostrar todas las filas y columnas
pd.set_option('display.max_columns', None)

# Importamos dataset desde una URL
url = "https://api.covidtracking.com/v1/states/daily.json"


# Exploración Basica del Dataset

 Este dataset contiene información relacionada con el seguimiento de la pandemia de COVID-19 en diferentes estados o territorios. Cada registro en el conjunto de datos corresponde a una recopilación de datos en una fecha específica.
 
**El Proyecto de Rastreo de COVID ha finalizado la recopilación de todos los datos a partir del 7 de marzo de 2021. La API existente continuará funcionando hasta mayo de 2021, pero solo incluirá datos hasta el 7 de marzo de 2021.**


A continuación, se describen los diferentes campos presentes en el dataset:

**checkTimeEt:** Es un campo de tipo string y está marcado como "Deprecated", lo que significa que está obsoleto y ya no se utiliza.

**commercialScore:** Es un campo de tipo entero (integer) y también está marcado como "Deprecated".

**Returns:** Este campo se refiere a lo que se devuelve si no hay datos disponibles para los campos anteriores que son obsoletos. En este caso, se devuelve "null" cuando no hay datos disponibles.

**dataQualityGrade:** Es un campo de tipo string que indica la calificación de la calidad de los datos informados por un estado. Esto es proporcionado por el "The COVID Tracking Project" y se refiere a la completitud de la presentación de datos por parte de un estado.

**date:** Es un campo de tipo entero que representa la fecha en la que se recopilaron los datos por "The COVID Tracking Project".

**dateChecked:** Es un campo de tipo string y también está marcado como "Deprecated".

**dateModified:** Es un campo de tipo string y está marcado como "Deprecated". Se sugiere usar en su lugar el campo "lastUpdateEt".

**death:** Es un campo de tipo entero y representa el total de personas fallecidas con diagnóstico confirmado o probable de COVID-19. Algunos estados pueden incluir solo las muertes con COVID-19 listadas en el certificado de defunción.

**deathConfirmed:** Es un campo de tipo entero que representa el total de personas fallecidas con diagnóstico confirmado de COVID-19.

**deathIncrease:** Es un campo de tipo entero y muestra el aumento diario en el número de muertes en comparación con el valor del día anterior.

**deathProbable:** Es un campo de tipo entero que representa el total de personas fallecidas con diagnóstico probable de COVID-19.

**fips:** Es un campo de tipo string que representa el código FIPS del estado.

**grade:** Es un campo de tipo string y está marcado como "Deprecated".

**hash:** Es un campo de tipo string y está marcado como "Deprecated".

**hospitalized:** Es un campo de tipo entero y está marcado como "Deprecated".

**hospitalizedCumulative:** Es un campo de tipo entero que representa el número total de personas que han sido hospitalizadas con COVID-19 desde el inicio de la pandemia.

**hospitalizedCurrently:** Es un campo de tipo entero y muestra el número actual de personas hospitalizadas con COVID-19.

**hospitalizedDischarged:** Es un campo de tipo entero que representa el número total de pacientes de COVID-19 dados de alta del hospital.

**hospitalizedIncrease:** Es un campo de tipo entero y muestra el aumento diario en el número de hospitalizaciones en comparación con el valor del día anterior.

**inIcuCumulative:** Es un campo de tipo entero que representa el número total de personas que han sido hospitalizadas en la Unidad de Cuidados Intensivos (UCI) con COVID-19 desde el inicio de la pandemia.

**inIcuCurrently:** Es un campo de tipo entero y muestra el número actual de personas hospitalizadas en la UCI con COVID-19.

**lastUpdateEt:** Es un campo de tipo string que indica la última fecha y hora en la que el estado o territorio actualizó los datos. Esta información se proporciona en hora del Este (ET).

**negative:** Es un campo de tipo entero que representa el número total de personas con una prueba de PCR completada que da negativo.

**negativeIncrease:** Es un campo de tipo entero y está marcado como "Deprecated".

**negativeRegularScore:** Es un campo de tipo entero y está marcado como "Deprecated".

**negativeScore:** Es un campo de tipo entero y está marcado como "Deprecated".

**negativeTestsAntibody:** Es un campo de tipo entero que representa el número total de pruebas de anticuerpos completadas que dan negativo.

**negativeTestsPeopleAntibody:** Es un campo de tipo entero que representa el número total de personas únicas con pruebas de anticuerpos completadas que dan negativo.

**negativeTestsViral:** Es un campo de tipo entero que representa el número total de pruebas de PCR completadas que dan negativo.

**onVentilatorCumulative:** Es un campo de tipo entero que representa el número total de personas que han sido hospitalizadas bajo ventilación avanzada con COVID-19 desde el inicio de la pandemia.

**onVentilatorCurrently:** Es un campo de tipo entero y muestra el número actual de personas hospitalizadas bajo ventilación avanzada con COVID-19.

**pending:** Es un campo de tipo entero que representa el número total de pruebas virales que no se han completado.

**posNeg:** Es un campo de tipo entero y está marcado como "Deprecated".

**positive:** Es un campo de tipo entero que representa el número total de casos confirmados y probables de COVID-19 informados por el estado o territorio.

**positiveCasesViral:** Es un campo de tipo entero que representa el número total de personas únicas con una prueba de PCR o una prueba de amplificación de ácido nucleico (NAAT) aprobada y positiva.

**positiveIncrease:** Es un campo de tipo entero y muestra el aumento diario en el número de casos positivos (confirmados y probables) en comparación con el valor del día anterior.

**positiveScore:** Es un campo de tipo entero y está marcado como "Deprecated".

**positiveTestsAntibody:** Es un campo de tipo entero que representa el número total de pruebas de anticuerpos completadas que dan positivo.

**positiveTestsAntigen:** Es un campo de tipo entero que representa el número total de pruebas de antígenos completadas que dan positivo.

**positiveTestsPeopleAntibody:** Es un campo de tipo entero que representa el número total de personas únicas con pruebas de anticuerpos completadas que dan positivo.

**positiveTestsPeopleAntigen:** Es un campo de tipo entero que representa el número total de personas únicas con una prueba de antígeno completa que dan positivo.

**positiveTestsViral:** Es un campo de tipo entero que representa el número total de pruebas de PCR completadas que dan positivo.

**probableCases:** Es un campo de tipo entero que representa el número total de casos probables de COVID-19 informados por el estado o territorio.

**recovered:** Es un campo de tipo entero que representa el número total de personas identificadas como recuperadas de COVID-19. Las definiciones de "recuperado" pueden variar según el estado o territorio.

**score:** Es un campo de tipo entero y está marcado como "Deprecated".

**state:** Es un campo de tipo string que representa el estado o territorio con una abreviatura de dos letras.

**total:** Es un campo de tipo entero y está marcado como "Deprecated".

**totalTestEncountersViral:** Es un campo de tipo entero que representa el número total de personas que se han sometido a pruebas de PCR por día, según lo informado por el estado o territorio.

**totalTestResults:** Es un campo de tipo entero que representa el número total de resultados de pruebas realizadas. Este valor es una estadística resumida a nivel nacional y puede variar según los métodos de informe de pruebas en diferentes estados/territorios.

**totalTestResultsIncrease:** Es un campo de tipo entero que muestra el aumento diario en el número total de resultados de pruebas en comparación con el valor del día anterior.

**totalTestResultsSource:** Es un campo de tipo string que indica qué campo se está utilizando para los resultados totales de pruebas. Si es "posNeg", significa que se calcula sumando todos los valores positivos y negativos.

**totalTestsAntibody:** Es un campo de tipo entero que representa el número total de pruebas de anticuerpos completadas.

**totalTestsAntigen:** Es un campo de tipo entero que representa el número total de pruebas de antígenos completadas.

**totalTestsPeopleAntibody:** Es un campo de tipo entero que representa el número total de personas únicas que han sido sometidas a pruebas de anticuerpos.

**totalTestsPeopleAntigen:** Es un campo de tipo entero que representa el número total de personas únicas que han sido sometidas a pruebas de antígenos.

**totalTestsPeopleViral:** Es un campo de tipo entero que representa el número total de personas únicas sometidas a pruebas de PCR.

**totalTestsViral:** Es un campo de tipo entero que representa el número total de pruebas de PCR completadas. 

# Visualización de datos

In [None]:
# Realizar la solicitud (request) para obtener los datos JSON
response = requests.get(url)

# Verificar que la solicitud fue exitosa (código de estado 200)
if response.status_code == 200:
    # Cargar los datos JSON en un DataFrame de pandas 
    data = response.json()
    df = pd.DataFrame(data)
    
    # Mostrar las primeras filas del DataFrame
    display(df)
else:
    print("No se pudo obtener los datos JSON. Código de estado:", response.status_code)


## Análisis exploratorio preliminar

Dataset con **20780** entradas y **56** campos de los cuales 14 están marcados como "deprecated" (a desestimar) en la documentación del proveedor de datos https://covidtracking.com/data/api --> "Historic values for all states ".

En el caso de campos con muchos datos incompletos, se valorará el método para lidiar con ellos (eliminación filas, columnas, imputación etc) en caso necesario. El campo **dataQualityGrade** puede ser eliminado porque no contiene ningún valor.

In [None]:
#Exploramos tipos 
# - El número de filas y columnas (el tamaño del DataFrame).
# - El nombre de cada columna y su tipo de datos.
# - La cantidad de valores no nulos en cada columna. 

df.info()

In [None]:
df.isnull().sum(axis = 0)

## Preparación de Columnas para Análisis

Las columnas principales para el posterior análisis son las siguientes:
    

**date** : tiene valores en todos los campos. El tipo de dato es "float" por lo que procedemos a cambiarlo por "datetime" que es más apropiado

**state** : tiene valores en todos los campos por lo que ya está lista para operar

**death**: como hemos visto anteriormente, presenta 850 valores nulos. En este caso sería conveniente entender la naturaleza de los mismos para discernir si es conveniente sustituirlos por 0 para futuros cálculos o no.

**hospitalizedCurrently:** Es un campo de tipo entero y muestra el número actual de personas hospitalizadas con COVID-19.

### Se añade una columna con el nombre completo del Estado

In [None]:
# Se usa libreria us
df['State_Name'] = df['state'].apply(lambda x: us.states.lookup(x).name 
                                             if x and us.states.lookup(x) else None)

In [None]:
# Se mueve la columna porque la añade como ultima columna y se quiere poner entre las primeras.
columna_a_mover = 'State_Name'

# Reordenar las columnas del DataFrame para mover 'nombre_estado' a la tercera posición
columnas = list(df.columns)
columnas.remove(columna_a_mover)
nueva_posicion = 2  # Índice de la tercera posición (índices en pandas comienzan desde 0)
columnas.insert(nueva_posicion, columna_a_mover)

# Reindexar el DataFrame con las columnas en el nuevo orden
df = df.reindex(columns=columnas)

In [None]:
# Rellena todos los valores vacios que corresponden a el estado DE washington D.C. con un valor específico.
df['State_Name'].fillna("Washington D.C.", inplace=True)

In [None]:
valor_especifico = df.loc[(8), 'State_Name']

# Imprime el valor específico para verificar que se haya rellenado
# los valores vacios
print(valor_especifico)

### Se transforma la columna de fecha a formato fecha

In [None]:
df['date'] = pd.to_datetime(df['date'], format='%Y%m%d')

## Analisis para saber si valores faltantes de columna "death" se pueden rellenar con 0.

In [None]:
# Exploramos los valores "null" del campo "death" a lo largo del tiempo

# Muertes totales por fecha
total_death_by_date = df.groupby('date')['death'].sum()

# valores nulos en el campo death por fecha
missing_death_by_date = df['death'].isnull().groupby(df['date']).sum()

# Create a secondary y-axis for the total deaths
fig, ax1 = plt.subplots(figsize=(14,8))
#fig.subplots_adjust(right=0.85)

color = 'tab:blue'
ax1.set_xlabel('Date')
ax1.set_ylabel('Number of Missing Values', color=color)
ax1.plot(missing_death_by_date, color=color)  # Change 'missing_death_all_dates' to 'missing_death_by_date'
ax1.tick_params(axis='y', labelcolor=color)

ax2 = ax1.twinx()  # instantiate a second axes that shares the same x-axis

color = 'tab:red'
ax2.set_ylabel('Total Deaths', color=color)  # we already handled the x-label with ax1
ax2.plot(total_death_by_date, color=color)  # Change 'total_death_by_date' to total_death_by_date
ax2.tick_params(axis='y', labelcolor=color)

plt.title('Missing Values and Total Deaths in the "death" Column Over Time')
fig.tight_layout()  # otherwise the right y-label is slightly clipped
plt.show()

## Justificación

Al analizar la gráfica, se puede apreciar que los valores nulos correspondientes al campo "death" (representados por la línea azul) se encuentran concentrados en un período previo al inicio del registro de las primeras muertes en Estados Unidos (representadas por la línea roja). Por consiguiente, podemos inferir que durante este periodo anterior a abril de 2020, es factible reemplazar los valores vacíos por cero, con el objetivo de agilizar un análisis posterior.



In [None]:
# Se procede a cambiar valores faltantes de columna death a 0.
df['death'].fillna(0, inplace=True)

### Se eliminan las columnas que no necesitamos o que tienen datos nulos o vacios

In [None]:
# Definimos las columnas que queremos eliminar
columnas_eliminar = ['checkTimeEt', 'commercialScore', 'dateChecked', 'dateModified', 'grade', 'hash', 
                     'hospitalized', 'negativeIncrease', 'negativeRegularScore', 'negativeScore', 
                     'posNeg', 'positiveScore', 'score', 'total', 'dataQualityGrade']

# Creamos un nuevo dataframe que no incluya esas columnas (deprecated)
df = df.drop(columns=columnas_eliminar)

# Información sobre el dataset (tipo de datos, campos nulos o vacíos)

df.info()

## Funcion Describe - Outliers


In [None]:
#Creamos una variable para agrupar los datos de la columna que queremos graficar
death = df['death'].describe()
print (death)

In [None]:
#para sacar el iqr se calculan primero los q1 y q3
q1 = death['25%']
q3 = death['75%']
print(q1)
print(q3)
iqr = q3 - q1
print(iqr)

In [None]:
#Se saca el minimos y maximos con los calculos anteriores
max_death = q3 + 1.5*iqr
min_death = q1 - 1.5*iqr
print(max_death)
print(min_death)

In [None]:
#Se crea la variable del filtro lower_limit
#Reviso cuales valores estan por debajo del limite minimo (se mostrarán con True y False)
lower_limit = (df['death'] < min_death)

lower_limit

In [None]:
#Se prueba el filtro para revisar si hay outliers
df[lower_limit]

In [None]:
#Se crea la variable del filtro upper_limit
#Reviso cuales valores estan por encima del limite maximo (se mostrarán con True y False)
upper_limit = (df['death'] > max_death)

upper_limit

In [None]:
#Se prueba el filtro para revisar si hay outliers
df[upper_limit]

## Graficas

In [None]:
#Se grafica la columna death sin filtros outlier
px.box(df, y = 'death')

In [None]:
#Se aplica el filtro de max outliers de columna death.
#Diagrama de cajas Interactiva
px.box(df, y = df[upper_limit]['death'])

In [None]:
#Muertos por estados

grouped = df.groupby("state").agg({"death": 'sum','deathIncrease':'sum'}).sort_values(by="death", ascending=False).head(30)
grouped

In [None]:
# Se grafica de todos muertos por estados

plt.figure(figsize=(10, 8))
grouped_reset = grouped.reset_index()  # Reset the index
grouped_melted = grouped_reset.melt(id_vars="state", value_vars=["death"], var_name="Count Type", value_name="Count")
sns.barplot(x="Count", y="state", hue="Count Type", data=grouped_melted)
plt.xlabel("Count")
plt.ylabel("State")
plt.title("Total Death by State")
plt.legend()
plt.show()

## Population by state 10 top

- California: Approximately 39.5 million people
- Texas: Approximately 29.8 million people
- Florida: Approximately 21.7 million people
- New York: Approximately 20.2 million people
- Pennsylvania: Approximately 13.1 million people
- Illinois: Approximately 12.7 million people
- Ohio: Approximately 11.8 million people
- Georgia: Approximately 10.8 million people
- North Carolina: Approximately 10.7 million people
- Michigan: Approximately 10.1 million people


In [None]:
# Inrcemento de fallecidos por estados

plt.figure(figsize=(10, 8))
grouped_reset = grouped.reset_index()  # Reset the index
grouped_melted = grouped_reset.melt(id_vars="state", value_vars=["deathIncrease"], var_name="Count Type", value_name="Count")
sns.barplot(x="Count", y="state", hue="Count Type", data=grouped_melted)
plt.xlabel("Count")
plt.ylabel("State")
plt.title("Total Death Increase by State")
plt.legend()
plt.show()

### Visualización de las primeras filas del dataset con información de fecha y muertes


In [None]:
#Se cambia el formato de la columna date por formato fecha

df['date'] = pd.to_datetime(df['date'], format='%Y%m%d')
df['death'] = df['death'].apply(lambda x: str(x).rstrip('.0'))
df['deathIncrease'] = df['deathIncrease'].apply(lambda x: 'NoIncrease' if x == 0 else x)
df[['date', 'state', 'death', 'deathIncrease']].sort_values(by='date', ascending=False).head(10)