# Análisis de COVID-19 en Estados Unidos

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

In [None]:
# Cargar los datos procesados
data_dir = Path.cwd().parent / 'data' / 'processed'
df = pd.read_csv(data_dir / 'cleaned_covid19_data.csv', parse_dates=['date'])
df.head()

## Exploración Inicial de Datos

In [None]:
print(df.info())
print("\nEstadísticas descriptivas:")
df.describe()

## Análisis de Casos Totales por Estado

In [None]:
plt.figure(figsize=(12, 6))
cases_by_state = df.groupby('state')['positive'].max().sort_values(ascending=False)
cases_by_state.plot(kind='bar')
plt.title('Casos totales de COVID-19 por estado')
plt.xlabel('Estado')
plt.ylabel('Número de casos')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()

print(f"El estado con más casos es {cases_by_state.index[0]} con {cases_by_state.iloc[0]:,} casos.")
print(f"Los 5 estados más afectados son: {', '.join(cases_by_state.index[:5])}")

## Evolución de Casos en los Estados Más Afectados

In [None]:
top_5_states = cases_by_state.index[:5]
plt.figure(figsize=(12, 6))
for state in top_5_states:
    state_data = df[df['state'] == state].sort_values('date')
    plt.plot(state_data['date'], state_data['positive'], label=state)
plt.title('Evolución de casos en los 5 estados más afectados')
plt.xlabel('Fecha')
plt.ylabel('Número de casos')
plt.legend()
plt.tight_layout()
plt.show()

## Análisis de la Tasa de Mortalidad

In [None]:
df['mortality_rate'] = df['death'] / df['positive'] * 100
mortality_rate = df.groupby('state')['mortality_rate'].mean().sort_values(ascending=False)

plt.figure(figsize=(12, 6))
mortality_rate.plot(kind='bar')
plt.title('Tasa de mortalidad promedio por estado')
plt.xlabel('Estado')
plt.ylabel('Tasa de mortalidad (%)')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()

print(f"El estado con la tasa de mortalidad más alta es {mortality_rate.index[0]} con {mortality_rate.iloc[0]:.2f}%")
print(f"El estado con la tasa de mortalidad más baja es {mortality_rate.index[-1]} con {mortality_rate.iloc[-1]:.2f}%")

## Correlación entre Variables

In [None]:
correlation_matrix = df[['positive', 'negative', 'death', 'hospitalized']].corr()
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlación entre variables')
plt.tight_layout()
plt.show()

## Conclusiones

Basado en nuestro análisis, podemos concluir lo siguiente:

1. **Los estados más afectados en términos de casos totales son**:
   - El estado con más casos es California con 3,751,028 casos.
   - Los 5 estados más afectados son: California, Texas, Florida, Nueva York y Illinois.

2. **La evolución de casos muestra que**:
   - Los estados más afectados han tenido un aumento constante en el número de casos a lo largo del tiempo, con picos significativos en ciertos periodos.

3. **En cuanto a la tasa de mortalidad, observamos que**:
   - El estado con la tasa de mortalidad más alta es Nueva Jersey con un 8.92%.
   - El estado con la tasa de mortalidad más baja es Utah con un 0.55%.

4. **La correlación entre variables indica que**:
   - Existe una alta correlación positiva entre el número de casos positivos y el número de muertes, lo cual es esperado.
   - También hay una correlación significativa entre el número de casos positivos y el número de hospitalizaciones.

Estas conclusiones nos permiten entender mejor la situación de la pandemia de COVID-19 en Estados Unidos y podrían ser útiles para informar políticas de salud pública y medidas de prevención.