# PROJETO COVID 19 - UNITED STATES

Iremos analisar os dados de casos e mortes nos EUA, durante toda a pandemia. Além disso, iremos tentar prever as futuras mortes e casos, em todo o território. Depois, iremos analisar e tentar prever o futuro da pandemia em alguns estados específicos que fazem grande diferença nos dados nacionais(Califórnia, Flórida, New York e Texas).

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime
import plotly.express as px
import plotly.graph_objects as go

In [24]:
    # Primeiro, vamos importar os dados do The New York Times
url = 'https://raw.githubusercontent.com/nytimes/covid-19-data/master/us.csv'
database = pd.read_csv(url, ',', parse_dates=['date'])
database.columns = ['data', 'casos', 'mortes']
database

Unnamed: 0,data,casos,mortes
0,2020-01-21,1,0
1,2020-01-22,1,0
2,2020-01-23,1,0
3,2020-01-24,2,0
4,2020-01-25,3,0
...,...,...,...
423,2021-03-19,29754124,540720
424,2021-03-20,29808755,541493
425,2021-03-21,29842991,541937
426,2021-03-22,29897649,542587


In [4]:
    # Vamos selecionar e retirar o que não queremos dos dados
database = database.loc[
    (database.casos >= 1) &
    (database.mortes >= 0)
]
database

Unnamed: 0,data,casos,mortes
0,2020-01-21,1,0
1,2020-01-22,1,0
2,2020-01-23,1,0
3,2020-01-24,2,0
4,2020-01-25,3,0
...,...,...,...
423,2021-03-19,29754124,540720
424,2021-03-20,29808755,541493
425,2021-03-21,29842991,541937
426,2021-03-22,29897649,542587


In [5]:
    # Vamos visualizar os casos, durante toda a pandemia em um gráfico
px.line(database, 'data', 'casos', title='Casos por Covid-19 nos EUA')

In [6]:
    # Agora, visualizar as mortes
px.line(database, 'data', 'mortes', title='Mortes por Covid-19 nos EUA')

In [8]:
    # Vamos criar variáveis para ver os dados por estado
        # Primeiro, importar os dados com as informações do The New York Times
url1 = 'https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-states.csv'
database2 = pd.read_csv(url1, ',', parse_dates=['date'])
database2.columns= ['data', 'estado', 'fips', 'casos', 'mortes']
print(database2)
        # Agora, criar as variáveis
ca = database2.loc[database2['estado'] == 'California']
fl = database2.loc[database2['estado'] == 'Florida']
ny = database2.loc[database2['estado'] == 'New York']
tx = database2.loc[database2['estado'] == 'Texas']

            data         estado  fips   casos  mortes
0     2020-01-21     Washington    53       1       0
1     2020-01-22     Washington    53       1       0
2     2020-01-23     Washington    53       1       0
3     2020-01-24       Illinois    17       1       0
4     2020-01-24     Washington    53       1       0
...          ...            ...   ...     ...     ...
21239 2021-03-23       Virginia    51  607234   10137
21240 2021-03-23     Washington    53  359290    5249
21241 2021-03-23  West Virginia    54  138429    2613
21242 2021-03-23      Wisconsin    55  630040    7241
21243 2021-03-23        Wyoming    56   55799     695

[21244 rows x 5 columns]


In [9]:
    # Vamos visualizar os casos por estado
        # Califórnia
px.line(ca, 'data', 'casos', title='Casos confirmados de Covid-19 na Califórnia')

In [10]:
        # Ver os casos na Flórida
px.line(fl, 'data', 'casos', title='Casos confirmados de Covid-19 na Flórida')

In [11]:
        # Visualizar os casos em New York
px.line(ny, 'data', 'casos', title='Casos confirmados de Covid-19 em New York')

In [12]:
        # Visualizar os casos no Texas
px.line(tx, 'data', 'casos', title='Casos confirmados por Covid-19 no Texas')

In [13]:
    # Vamos visualizar as mortes pelos estados
        # Visualizar as mortes na Califórnia
px.line(ca, 'data', 'mortes', title='Mortes confirmadas por Covid-19 na Califórnia')

In [14]:
        # Visualizar as mortes na Flórida
px.line(fl, 'data', 'mortes', title='Mortes confirmadas de Covid-19 na Flórida')

In [15]:
        # Visualizar as mortes em New York
px.line(ny, 'data', 'mortes', title='Mortes confirmadas por Covid-19 em New York')

In [16]:
        # Visualizar as mortes no Texas
px.line(tx, 'data', 'mortes', title='Mortes confirmadas por Covid-19 no Texas')

In [17]:
    #Agora vamos trabalhar com os novos casos por dia no país inteiro
        # Criar uma nova coluna dentro da base de dados para os casos diários
database['novos casos'] = list(map(
    lambda x: 0 if (x==0) else database['casos'].iloc[x] - database['casos'].iloc[x-1],
    np.arange(database.shape[0])
))
    # Visualizar os casos diários no país inteiro
px.line(database, 'data', 'novos casos', title='Casos confirmados de Covid-19 por dia nos EUA')

In [18]:
    # Agora vamos trabalhar com os casos diários dos estados
        # Califórnia
ca['novos casos'] = list(map(
    lambda x: 0 if (x==0) else ca['casos'].iloc[x] - ca['casos'].iloc[x-1],
    np.arange(ca.shape[0])
))
    # Vamos visualizar os casos diários na Califórnia
px.line(ca, 'data', 'novos casos', title='Casos confirmados de Covid-19 por dia na Califórnia')



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [19]:
    # Agora a Flórida
fl['novos casos'] = list(map(
    lambda x: 0 if (x==0) else fl['casos'].iloc[x] - fl['casos'].iloc[x-1],
    np.arange(fl.shape[0])
))
    # Vamos visualizar os cados por dia na Flórida
px.line(ca, 'data', 'novos casos', title='Novos Casos de Covid-19 por dia na Flórida')



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [20]:
    # New York
ny['novos casos'] = list(map(
    lambda x: 0 if (x==0) else ny['casos'].iloc[x] - ny['casos'].iloc[x-1],
    np.arange(ny.shape[0])
))
    # Visualizar o gráfico
px.line(ny, 'data', 'novos casos', title='Casos Confirmados de Covid-19 por dia em New York')



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [21]:
    # Agora analisar o Texas
tx['novos casos'] = list(map(
    lambda y: 0 if (y==0) else tx['casos'].iloc[y] - tx['casos'].iloc[y-1],
    np.arange(tx.shape[0])
))
    # Visualizar o gráfico
px.line(tx, 'data', 'novos casos', title='Casos confirmados de Covid-19 por dia no Texas')



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [52]:
# Vamos analisar a taxa de crescimento de mortes e casos

def taxa_cresc(database, x1, data_inicio=None, data_fim=None):
    if data_inicio == None:
        data_inicio = database.data.loc[database[x1] > 0].min()
    else:
        data_inicio = pd.to_datetime(data_inicio)
    
    if data_fim == None:
        data_fim = database.data.iloc[-1]
    else:
        data_fim = pd.to_datetime(data_fim)
    
    # Definir os valores do passado e do presente
    passado = database.loc[database.data == data_inicio, x1].values[0]
    presente = database.loc[database.data == data_fim, x1].values[0]
    n = (data_fim - data_inicio).days
    
    # Calcular a taxa
    taxa = (presente/passado)**(1/n) -1
    return taxa*100


In [53]:
# Visualizar a taxa de crescimento médio de casos, durante toda a pandemia
    # Em todo os EUA
print(taxa_cresc(database, 'casos'))
    # Na California
print(taxa_cresc(ca, 'casos'))
    # Na Flórida
print(taxa_cresc(fl, 'casos'))
    # Em New York
print(taxa_cresc(ny, 'casos'))
    # No Texas
print(taxa_cresc(tx, 'casos'))

4.11405903066091
3.6365978695731105
3.6365862339270194
3.7911221915681192
3.7300402357217433


In [54]:
# Visualizar a taxa de crescimento médio de mortes, durante toda a pandemia
    # Em todo os EUA
print(taxa_cresc(database, 'mortes'))
    # Na Califórnia
print(taxa_cresc(ca, 'mortes'))
    # Na Flórida
print(taxa_cresc(fl, 'mortes'))
    # Em New York
print(taxa_cresc(ny, 'mortes'))
    # No Texas
print(taxa_cresc(tx, 'mortes'))

3.4621261393728897
2.89706435331496
2.573288923762429
2.7389665873516655
2.9382277252343103


In [51]:
# Agora, vamos calcular a taxa de mortalidade da pandemia
    # Em todo o território dos EUA
taxmorte_eua =  (database['mortes'].iloc[-1] / database['casos'].iloc[-1]) *100
print(taxmorte_eua)
    # Na Califórnia
taxmorte_ca = (ca['mortes'].iloc[-1] / ca['casos'].iloc[-1]) *100
print(taxmorte_ca)
    # Na Flórida
taxmorte_fl = (fl['mortes'].iloc[-1] / fl['casos'].iloc[-1]) *100
print(taxmorte_fl)
    # Em New York
taxmorte_ny = (ny['mortes'].iloc[-1] / ny['casos'].iloc[-1]) *100
print(taxmorte_ny)
    # No Texas
taxmorte_tx = (tx['mortes'].iloc[-1] / tx['casos'].iloc[-1]) *100
print(taxmorte_tx)

1.8141709147222937
1.587393395276827
1.6275189002754769
2.7289265546166983
1.7265780302799967
