# VISUALIZACION DEL IMPACTO DEL COVID-19 EN US

Este dataset proporciona información detallada sobre casos confirmados y probables,muertes, hospitalizaciones, pruebas realizadas y otros datos relevantes relacionados con la pandemia de COVID-19 en diferentes estados o territorios.

## Linea de importacion de librerias y dataset

In [34]:
import requests 
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
import us

# Configura las opciones de visualización para mostrar todas las filas y columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
#link del dataset
url = "https://api.covidtracking.com/v1/states/daily.json"
url2 = "https://api.covidtracking.com/v1/states/daily.csv"

## Exploración Basica del Dataset

Este dataset contiene información relacionada con el seguimiento de la pandemia de COVID-19 en diferentes estados o territorios. Cada registro en el conjunto de datos corresponde a una recopilación de datos en una fecha específica. A continuación, se describen los diferentes campos presentes en el dataset:

1. **checkTimeEt**: Es un campo de tipo string y está marcado como "Deprecated", lo que significa que está obsoleto y ya no se utiliza.

2. **commercialScore**: Es un campo de tipo entero (integer) y también está marcado como "Deprecated".

3. **Returns**: Este campo se refiere a lo que se devuelve si no hay datos disponibles para los campos anteriores que son obsoletos. En este caso, se devuelve "null" cuando no hay datos disponibles.

4. **dataQualityGrade**: Es un campo de tipo string que indica la calificación de la calidad de los datos informados por un estado. Esto es proporcionado por el "The COVID Tracking Project" y se refiere a la completitud de la presentación de datos por parte de un estado.

5. **date**: Es un campo de tipo entero que representa la fecha en la que se recopilaron los datos por "The COVID Tracking Project".

6. **dateChecked**: Es un campo de tipo string y también está marcado como "Deprecated".

7. **dateModified**: Es un campo de tipo string y está marcado como "Deprecated". Se sugiere usar en su lugar el campo "lastUpdateEt".

8. **death**: Es un campo de tipo entero y representa el total de personas fallecidas con diagnóstico confirmado o probable de COVID-19. Algunos estados pueden incluir solo las muertes con COVID-19 listadas en el certificado de defunción.

9. **deathConfirmed**: Es un campo de tipo entero que representa el total de personas fallecidas con diagnóstico confirmado de COVID-19.

10. **deathIncrease**: Es un campo de tipo entero y muestra el aumento diario en el número de muertes en comparación con el valor del día anterior.

11. **deathProbable**: Es un campo de tipo entero que representa el total de personas fallecidas con diagnóstico probable de COVID-19.

12. **fips**: Es un campo de tipo string que representa el código FIPS del estado.

13. **grade**: Es un campo de tipo string y está marcado como "Deprecated".

14. **hash**: Es un campo de tipo string y está marcado como "Deprecated".

15. **hospitalized**: Es un campo de tipo entero y está marcado como "Deprecated".

16. **hospitalizedCumulative**: Es un campo de tipo entero que representa el número total de personas que han sido hospitalizadas con COVID-19 desde el inicio de la pandemia.

17. **hospitalizedCurrently**: Es un campo de tipo entero y muestra el número actual de personas hospitalizadas con COVID-19.

18. **hospitalizedDischarged**: Es un campo de tipo entero que representa el número total de pacientes de COVID-19 dados de alta del hospital.

19. **hospitalizedIncrease**: Es un campo de tipo entero y muestra el aumento diario en el número de hospitalizaciones en comparación con el valor del día anterior.

20. **inIcuCumulative**: Es un campo de tipo entero que representa el número total de personas que han sido hospitalizadas en la Unidad de Cuidados Intensivos (UCI) con COVID-19 desde el inicio de la pandemia.

21. **inIcuCurrently**: Es un campo de tipo entero y muestra el número actual de personas hospitalizadas en la UCI con COVID-19.

22. **lastUpdateEt**: Es un campo de tipo string que indica la última fecha y hora en la que el estado o territorio actualizó los datos. Esta información se proporciona en hora del Este (ET).

23. **negative**: Es un campo de tipo entero que representa el número total de personas con una prueba de PCR completada que da negativo.

24. **negativeIncrease**: Es un campo de tipo entero y está marcado como "Deprecated".

25. **negativeRegularScore**: Es un campo de tipo entero y está marcado como "Deprecated".

26. **negativeScore**: Es un campo de tipo entero y está marcado como "Deprecated".

27. **negativeTestsAntibody**: Es un campo de tipo entero que representa el número total de pruebas de anticuerpos completadas que dan negativo.

28. **negativeTestsPeopleAntibody**: Es un campo de tipo entero que representa el número total de personas únicas con pruebas de anticuerpos completadas que dan negativo.

29. **negativeTestsViral**: Es un campo de tipo entero que representa el número total de pruebas de PCR completadas que dan negativo.

30. **onVentilatorCumulative**: Es un campo de tipo entero que representa el número total de personas que han sido hospitalizadas bajo ventilación avanzada con COVID-19 desde el inicio de la pandemia.

31. **onVentilatorCurrently**: Es un campo de tipo entero y muestra el número actual de personas hospitalizadas bajo ventilación avanzada con COVID-19.

32. **pending**: Es un campo de tipo entero que representa el número total de pruebas virales que no se han completado.

33. **posNeg**: Es un campo de tipo entero y está marcado como "Deprecated".

34. **positive**: Es un campo de tipo entero que representa el número total de casos confirmados y probables de COVID-19 informados por el estado o territorio.

35. **positiveCasesViral**: Es un campo de tipo entero que representa el número total de personas únicas con una prueba de PCR o una prueba de amplificación de ácido nucleico (NAAT) aprobada y positiva.

36. **positiveIncrease**: Es un campo de tipo entero y muestra el aumento diario en el número de casos positivos (confirmados y probables) en comparación con el valor del día anterior.

37. **positiveScore**: Es un campo de tipo entero y está marcado como "Deprecated".

38. **positiveTestsAntibody**: Es un campo de tipo entero que representa el número total de pruebas de anticuerpos completadas que dan positivo.

39. **positiveTestsAntigen**: Es un campo de tipo entero que representa el número total de pruebas de antígenos completadas que dan positivo.

40. **positiveTestsPeopleAntibody**: Es un campo de tipo entero que representa el número total de personas únicas con pruebas de anticuerpos completadas que dan positivo.

41. **positiveTestsPeopleAntigen**: Es un campo de tipo entero que representa el número total de personas únicas con una prueba de antígeno completa que dan positivo.

42. **positiveTestsViral**: Es un campo de tipo entero que representa el número total de pruebas de PCR completadas que dan positivo.

43. **probableCases**: Es un campo de tipo entero que representa el número total de casos probables de COVID-19 informados por el estado o territorio.

44. **recovered**: Es un campo de tipo entero que representa el número total de personas identificadas como recuperadas de COVID-19. Las definiciones de "recuperado" pueden variar según el estado o territorio.

45. **score**: Es un campo de tipo entero y está marcado como "Deprecated".

46. **state**: Es un campo de tipo string que representa el estado o territorio con una abreviatura de dos letras.

47. **total**: Es un campo de tipo entero y está marcado como "Deprecated".

48. **totalTestEncountersViral**: Es un campo de tipo entero que representa el número total de personas que se han sometido a pruebas de PCR por día, según lo informado por el estado o territorio.

49. **totalTestResults**: Es un campo de tipo entero que representa el número total de resultados de pruebas realizadas. Este valor es una estadística resumida a nivel nacional y puede variar según los métodos de informe de pruebas en diferentes estados/territorios.

50. **totalTestResultsIncrease**: Es un campo de tipo entero que muestra el aumento diario en el número total de resultados de pruebas en comparación con el valor del día anterior.

51. **totalTestResultsSource**: Es un campo de tipo string que indica qué campo se está utilizando para los resultados totales de pruebas. Si es "posNeg", significa que se calcula sumando todos los valores positivos y negativos.

52. **totalTestsAntibody**: Es un campo de tipo entero que representa el número total de pruebas de anticuerpos completadas.

53. **totalTestsAntigen**: Es un campo de tipo entero que representa el número total de pruebas de antígenos completadas.

54. **totalTestsPeopleAntibody**: Es un campo de tipo entero que representa el número total de personas únicas que han sido sometidas a pruebas de anticuerpos.

55. **totalTestsPeopleAntigen**: Es un campo de tipo entero que representa el número total de personas únicas que han sido sometidas a pruebas de antígenos.

56. **totalTestsPeopleViral**: Es un campo de tipo entero que representa el número total de personas únicas sometidas a pruebas de PCR.

57. **totalTestsViral**: Es un campo de tipo entero que representa el número total de pruebas de PCR completadas.

## Visualizacion de datos

In [47]:
df = pd.read_csv(url2)

# Ahora tienes tus datos almacenados en 'data_frame' y puedes manipularlos como desees
# Por ejemplo, puedes mostrar las primeras filas del DataFrame
display(df.head(38))

Unnamed: 0,date,state,positive,probableCases,negative,pending,totalTestResultsSource,totalTestResults,hospitalizedCurrently,hospitalizedCumulative,inIcuCurrently,inIcuCumulative,onVentilatorCurrently,onVentilatorCumulative,recovered,lastUpdateEt,dateModified,checkTimeEt,death,hospitalized,hospitalizedDischarged,dateChecked,totalTestsViral,positiveTestsViral,negativeTestsViral,positiveCasesViral,deathConfirmed,deathProbable,totalTestEncountersViral,totalTestsPeopleViral,totalTestsAntibody,positiveTestsAntibody,negativeTestsAntibody,totalTestsPeopleAntibody,positiveTestsPeopleAntibody,negativeTestsPeopleAntibody,totalTestsPeopleAntigen,positiveTestsPeopleAntigen,totalTestsAntigen,positiveTestsAntigen,fips,positiveIncrease,negativeIncrease,total,totalTestResultsIncrease,posNeg,dataQualityGrade,deathIncrease,hospitalizedIncrease,hash,commercialScore,negativeRegularScore,negativeScore,positiveScore,score,grade
0,20210307,AK,56886.0,,,,totalTestsViral,1731628.0,33.0,1293.0,,,2.0,,,3/5/2021 03:59,2021-03-05T03:59:00Z,03/04 22:59,305.0,1293.0,,2021-03-05T03:59:00Z,1731628.0,68693.0,1660758.0,,,,,,,,,,,,,,,,2,0,0,56886,0,56886,,0,0,dc4bccd4bb885349d7e94d6fed058e285d4be164,0,0,0,0,0,
1,20210307,AL,499819.0,107742.0,1931711.0,,totalTestsPeopleViral,2323788.0,494.0,45976.0,,2676.0,,1515.0,295690.0,3/7/2021 11:00,2021-03-07T11:00:00Z,03/07 06:00,10148.0,45976.0,,2021-03-07T11:00:00Z,,,,392077.0,7963.0,2185.0,,2323788.0,,,,119757.0,,,,,,,1,408,2087,2431530,2347,2431530,,-1,0,997207b430824ea40b8eb8506c19a93e07bc972e,0,0,0,0,0,
2,20210307,AR,324818.0,69092.0,2480716.0,,totalTestsViral,2736442.0,335.0,14926.0,141.0,,65.0,1533.0,315517.0,3/7/2021 00:00,2021-03-07T00:00:00Z,03/06 19:00,5319.0,14926.0,,2021-03-07T00:00:00Z,2736442.0,,2480716.0,255726.0,4308.0,1011.0,,,,,,,,,481311.0,81803.0,,,5,165,3267,2805534,3380,2805534,,22,11,50921aeefba3e30d31623aa495b47fb2ecc72fae,0,0,0,0,0,
3,20210307,AS,0.0,,2140.0,,totalTestsViral,2140.0,,,,,,,,12/1/2020 00:00,2020-12-01T00:00:00Z,11/30 19:00,0.0,,,2020-12-01T00:00:00Z,2140.0,,,0.0,,,,,,,,,,,,,,,60,0,0,2140,0,2140,,0,0,f77912d0b80d579fbb6202fa1a90554fc4dc1443,0,0,0,0,0,
4,20210307,AZ,826454.0,56519.0,3073010.0,,totalTestsViral,7908105.0,963.0,57907.0,273.0,,143.0,,,3/7/2021 00:00,2021-03-07T00:00:00Z,03/06 19:00,16328.0,57907.0,118932.0,2021-03-07T00:00:00Z,7908105.0,,,769935.0,14403.0,1925.0,,3842945.0,580569.0,,,444089.0,,,,,,,4,1335,13678,3899464,45110,3899464,,5,44,0437a7a96f4471666f775e63e86923eb5cbd8cdf,0,0,0,0,0,
5,20210307,CA,3501394.0,,,,totalTestsViral,49646014.0,4291.0,,1159.0,,,,,3/7/2021 02:59,2021-03-07T02:59:00Z,03/06 21:59,54124.0,,,2021-03-07T02:59:00Z,49646014.0,,,3501394.0,,,,,,,,,,,,,,,6,3816,0,3501394,133186,3501394,,258,0,63c5c0fd2daef2fb65150e9db486de98ed3f7b72,0,0,0,0,0,
6,20210307,CO,436602.0,24786.0,2199458.0,,totalTestEncountersViral,6415123.0,326.0,23904.0,,,,,,3/7/2021 01:59,2021-03-07T01:59:00Z,03/06 20:59,5989.0,23904.0,23003.0,2021-03-07T01:59:00Z,,,,410976.0,5251.0,735.0,6415123.0,2616541.0,435053.0,63087.0,369995.0,,,,,,,,8,840,0,2636060,38163,2636060,,3,18,444746cda3a596f183f3fa3269c8cab68704e819,0,0,0,0,0,
7,20210307,CT,285330.0,19621.0,,,totalTestsViral,6520366.0,428.0,,,,,,,3/4/2021 23:59,2021-03-04T23:59:00Z,03/04 18:59,7704.0,,,2021-03-04T23:59:00Z,6520366.0,323284.0,6188566.0,265709.0,6327.0,1377.0,,,,,,,,,,,396680.0,22245.0,9,0,0,285330,0,285330,,0,0,38f39494134d22cd0d06e4ce63aa4a4ac10aa930,0,0,0,0,0,
8,20210307,DC,41419.0,,,,totalTestEncountersViral,1261363.0,150.0,,38.0,,16.0,,29570.0,3/6/2021 00:00,2021-03-06T00:00:00Z,03/05 19:00,1030.0,,,2021-03-06T00:00:00Z,,,,,,,1261363.0,441942.0,,,,,,,,,,,11,146,0,41419,5726,41419,,0,0,a3aa0d623d538807fb9577ad64354f48cf728cc8,0,0,0,0,0,
9,20210307,DE,88354.0,4733.0,545070.0,,totalTestEncountersViral,1431942.0,104.0,,13.0,,,,,3/6/2021 18:00,2021-03-06T18:00:00Z,03/06 13:00,1473.0,,,2021-03-06T18:00:00Z,,91873.0,,83621.0,1337.0,136.0,1431942.0,633424.0,,,,,,,,,,,10,215,917,633424,5867,633424,,9,0,059d870e689d5cc19c35f5eb398214d7d9856373,0,0,0,0,0,


In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20780 entries, 0 to 20779
Data columns (total 56 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   date                         20780 non-null  int64  
 1   state                        20780 non-null  object 
 2   positive                     20592 non-null  float64
 3   probableCases                9271 non-null   float64
 4   negative                     13290 non-null  float64
 5   pending                      2138 non-null   float64
 6   totalTestResultsSource       20780 non-null  object 
 7   totalTestResults             20614 non-null  float64
 8   hospitalizedCurrently        17339 non-null  float64
 9   hospitalizedCumulative       12382 non-null  float64
 10  inIcuCurrently               11636 non-null  float64
 11  inIcuCumulative              3789 non-null   float64
 12  onVentilatorCurrently        9126 non-null   float64
 13  onVentilatorCumu

In [37]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# Muestra el resumen estadístico de todas las columnas
print(df.describe())

               date      positive  probableCases      negative       pending  \
count  2.078000e+04  2.059200e+04    9271.000000  1.329000e+04   2138.000000   
mean   2.020244e+07  1.651560e+05   21729.123719  8.482246e+05   1659.862956   
std    3.608732e+03  3.267852e+05   45471.459778  1.344501e+06   4671.028548   
min    2.020011e+07  0.000000e+00       0.000000  0.000000e+00      0.000000   
25%    2.020060e+07  5.753750e+03     773.500000  5.394125e+04     43.000000   
50%    2.020090e+07  4.606450e+04    4491.000000  3.059720e+05    212.500000   
75%    2.020120e+07  1.779580e+05   19553.000000  1.056611e+06   1295.750000   
max    2.021031e+07  3.501394e+06  365961.000000  1.018694e+07  64400.000000   

       totalTestResults  hospitalizedCurrently  hospitalizedCumulative  \
count      2.061400e+04           17339.000000            12382.000000   
mean       2.186936e+06            1190.576965             9262.762478   
std        4.436508e+06            2060.041207           

### Se eliminan las columans que no tienen ningun dato.

In [38]:
# Elimina las columnas 
columnas_a_eliminar = ["commercialScore", "negativeRegularScore", "negativeScore",
                       "positiveScore", "positiveScore", "dataQualityGrade", "grade", "hash", "score" ]
df = df.drop(columnas_a_eliminar, axis=1)

### Se transforma la columna de fecha a formato fecha

In [39]:
df['date'] = pd.to_datetime(df['date'], format='%Y%m%d')

### Se añadió una columna con el nombre completo del Estado

In [40]:
df['State_Name'] = df['state'].apply(lambda x: us.states.lookup(x).name 
                                             if x and us.states.lookup(x) else None)


In [41]:
# Obtener el nombre de la columna que deseas mover ('nombre_estado' en este caso)
columna_a_mover = 'State_Name'

# Reordenar las columnas del DataFrame para mover 'nombre_estado' a la tercera posición
columnas = list(df.columns)
columnas.remove(columna_a_mover)
nueva_posicion = 2  # Índice de la tercera posición (índices en pandas comienzan desde 0)
columnas.insert(nueva_posicion, columna_a_mover)

# Reindexar el DataFrame con las columnas en el nuevo orden
df = df.reindex(columns=columnas)

In [42]:
display(df.head(5))

Unnamed: 0,date,state,State_Name,positive,probableCases,negative,pending,totalTestResultsSource,totalTestResults,hospitalizedCurrently,hospitalizedCumulative,inIcuCurrently,inIcuCumulative,onVentilatorCurrently,onVentilatorCumulative,recovered,lastUpdateEt,dateModified,checkTimeEt,death,hospitalized,hospitalizedDischarged,dateChecked,totalTestsViral,positiveTestsViral,negativeTestsViral,positiveCasesViral,deathConfirmed,deathProbable,totalTestEncountersViral,totalTestsPeopleViral,totalTestsAntibody,positiveTestsAntibody,negativeTestsAntibody,totalTestsPeopleAntibody,positiveTestsPeopleAntibody,negativeTestsPeopleAntibody,totalTestsPeopleAntigen,positiveTestsPeopleAntigen,totalTestsAntigen,positiveTestsAntigen,fips,positiveIncrease,negativeIncrease,total,totalTestResultsIncrease,posNeg,deathIncrease,hospitalizedIncrease
0,2021-03-07,AK,Alaska,56886.0,,,,totalTestsViral,1731628.0,33.0,1293.0,,,2.0,,,3/5/2021 03:59,2021-03-05T03:59:00Z,03/04 22:59,305.0,1293.0,,2021-03-05T03:59:00Z,1731628.0,68693.0,1660758.0,,,,,,,,,,,,,,,,2,0,0,56886,0,56886,0,0
1,2021-03-07,AL,Alabama,499819.0,107742.0,1931711.0,,totalTestsPeopleViral,2323788.0,494.0,45976.0,,2676.0,,1515.0,295690.0,3/7/2021 11:00,2021-03-07T11:00:00Z,03/07 06:00,10148.0,45976.0,,2021-03-07T11:00:00Z,,,,392077.0,7963.0,2185.0,,2323788.0,,,,119757.0,,,,,,,1,408,2087,2431530,2347,2431530,-1,0
2,2021-03-07,AR,Arkansas,324818.0,69092.0,2480716.0,,totalTestsViral,2736442.0,335.0,14926.0,141.0,,65.0,1533.0,315517.0,3/7/2021 00:00,2021-03-07T00:00:00Z,03/06 19:00,5319.0,14926.0,,2021-03-07T00:00:00Z,2736442.0,,2480716.0,255726.0,4308.0,1011.0,,,,,,,,,481311.0,81803.0,,,5,165,3267,2805534,3380,2805534,22,11
3,2021-03-07,AS,American Samoa,0.0,,2140.0,,totalTestsViral,2140.0,,,,,,,,12/1/2020 00:00,2020-12-01T00:00:00Z,11/30 19:00,0.0,,,2020-12-01T00:00:00Z,2140.0,,,0.0,,,,,,,,,,,,,,,60,0,0,2140,0,2140,0,0
4,2021-03-07,AZ,Arizona,826454.0,56519.0,3073010.0,,totalTestsViral,7908105.0,963.0,57907.0,273.0,,143.0,,,3/7/2021 00:00,2021-03-07T00:00:00Z,03/06 19:00,16328.0,57907.0,118932.0,2021-03-07T00:00:00Z,7908105.0,,,769935.0,14403.0,1925.0,,3842945.0,580569.0,,,444089.0,,,,,,,4,1335,13678,3899464,45110,3899464,5,44


In [46]:
valor_especifico = "NY"

# Filtrar el DataFrame para mostrar solo las filas con el valor específico en 'columna_interes'
filas_con_valor_especifico = df[df['state'] == valor_especifico]

# Mostrar las filas con el valor específico
print(filas_con_valor_especifico)

            date state State_Name   positive  probableCases  negative  \
37    2021-03-07    NY   New York  1681169.0            NaN       NaN   
93    2021-03-06    NY   New York  1674380.0            NaN       NaN   
149   2021-03-05    NY   New York  1666733.0            NaN       NaN   
205   2021-03-04    NY   New York  1657777.0            NaN       NaN   
261   2021-03-03    NY   New York  1650184.0            NaN       NaN   
317   2021-03-02    NY   New York  1642480.0            NaN       NaN   
373   2021-03-01    NY   New York  1636680.0            NaN       NaN   
429   2021-02-28    NY   New York  1630445.0            NaN       NaN   
485   2021-02-27    NY   New York  1622865.0            NaN       NaN   
541   2021-02-26    NY   New York  1614724.0            NaN       NaN   
597   2021-02-25    NY   New York  1606520.0            NaN       NaN   
653   2021-02-24    NY   New York  1597774.0            NaN       NaN   
709   2021-02-23    NY   New York  1591585.0       

In [43]:
# Guarda el DataFrame resultante en un nuevo archivo CSV
# Reemplaza 'nuevo_datos.csv' con el nombre del archivo que desee
df.to_csv('nuevo_datos.csv', index=False)