<a href="https://www.kaggle.com/fernandobordi/fb-visualizaci-n-graficaci-n-b-sica-parte-i?scriptVersionId=88414312" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

# Primera parte: visualizar datos 

In [1]:
# Práctica: se presenta un caso de análisis de datos para comprender los elementos básicos
# de visualización de datos con la librería del lenguaje Python
# Fernando Bordignon - http://saberesdigitales.unipe.edu.ar
 
# Vamos a empezar nuestro programa Python cargando una serie de librerías 
# que nos van a permitir manejar y graficar datos

import pandas as pd      # manejo de estructuras de datos 
import geopandas as gpd  # manejo de datos geográficos
import math              # funciones matemáticas
from datetime import datetime, date, time, timedelta # manejo de fechas  


  shapely_geos_version, geos_capi_version_string


A continuación vamos a cargar nuestro **juego de datos** que corresponde **datos diarios COVID** de distintas provincias del centro de Argentina (Buenos Aires, La Pampa, Santa Fe, Córdoba, Entre Ríos y el distrito CABA). Los datos están en formato csv, almacenados en un espacio de Kaggle. Solamente nos vamos a quedar con una serie de columnas o atributos que nos interesan.

**Consejo**: para aprender a analizar y graficar datos con Python te recomiendo que armes tus propios cuadernos (notebooks) en Kaggle y vayas siguiendo el paso a paso (lo primero es que gestiones tu cuenta personal). Como siempre, para asistencia extra está Google y las comunidades de usuarios.

**Consejo**: te recomiendo que descargues el archivo cvs a tu computadora y lo explores con una herramienta de planilla de cálculo. De esta manera podrás comprender mejor la estructura del archivo de datos a trabajar. Al archivo lo descargas desde la pestaña "data" en la página principal del presente protecto.

**Tip**: recuerda que en cada cambio que realices o nuevo código que incluyas debes dar "run" a tu proyecto. En principio recomiendo trabajar con "run all"

**Tip:** regularmente graba versiones de tu proyecto con "**save version**"

In [2]:
# Carga de datos de un archivo cvs a un dataframe

covid = pd.read_csv("../input/covid19arg/2022-01-06-DsNacion-ARG-centro.csv", encoding='latin-1')

# Los dataframes son estructuras de datos Python provistas por la librería "pandas"
# En principio podemos pensar que un dataframe es como una hoja de calculo, en la cual en
# las filas se almacenan registros de objetos y en las columnas los atributos de cada objeto. 
# En nuestro caso cada fila corresponde a un registro diario de datos COVID de una provincia

# Se convierte a dato tipo fecha la columna "fecha"

covid['fecha'] = pd.to_datetime(covid['fecha'])

# Se extraen los días del mes de octubre del año 2021.  Se aplica un filtro al dataframe "covid"
# El resultado es almacenado en un dataframe llamado "covid" - fechas expresadas como mes/día/año

covid = covid[((covid.fecha>="5/1/2021") & (covid.fecha<="5/31/2021"))]

# Se extraen los atributos de interes para trabajar el caso, el resto se elimina

covid = covid[['ubicacion','fecha', 'fallecidos','terapia', 'diagnosticos', 'internados']]

covid.to_csv("2021.csv") # si te interes puede exportar un dataframe a un archivo csv, editable con Excel. Descárgalo de la zona "data"

# Se la estructura del dataframe creado. Allí se tiene la cantidad de registros y nombres de atributos y tipos de datos asociados
covid.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 186 entries, 370 to 4389
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   ubicacion     186 non-null    object        
 1   fecha         186 non-null    datetime64[ns]
 2   fallecidos    186 non-null    int64         
 3   terapia       186 non-null    int64         
 4   diagnosticos  186 non-null    int64         
 5   internados    186 non-null    int64         
dtypes: datetime64[ns](1), int64(4), object(1)
memory usage: 10.2+ KB


In [3]:
# Se imprimen las primeras filas del dataframe creado

covid.head()

Unnamed: 0,ubicacion,fecha,fallecidos,terapia,diagnosticos,internados
370,buenos aires,2021-05-01,74,21,14852,124
401,buenos aires,2021-05-02,77,19,12750,74
429,buenos aires,2021-05-03,65,12,10510,65
460,buenos aires,2021-05-04,105,38,24089,246
490,buenos aires,2021-05-05,237,64,24514,313


A continuación vamos a mostrar los datos diarios, del mes seleccionado,correspondientes a la provincia de "cordoba"


In [4]:
covid_cordoba =  covid[(covid.ubicacion=="cordoba")]

covid_cordoba

Unnamed: 0,ubicacion,fecha,fallecidos,terapia,diagnosticos,internados
1844,cordoba,2021-05-01,2,8,4969,19
1875,cordoba,2021-05-02,5,5,3724,21
1903,cordoba,2021-05-03,10,2,4178,19
1934,cordoba,2021-05-04,8,17,6122,47
1964,cordoba,2021-05-05,11,30,7018,53
1972,cordoba,2021-05-13,11,28,8549,93
1973,cordoba,2021-05-14,17,33,9812,95
1974,cordoba,2021-05-15,18,29,5434,81
1975,cordoba,2021-05-16,23,16,1887,51
1976,cordoba,2021-05-17,24,33,12238,114


**Ordenamos** los datos anteriores por el atributo fecha

In [5]:
covid_cordoba = covid_cordoba.sort_values(["fecha"])

covid_cordoba

Unnamed: 0,ubicacion,fecha,fallecidos,terapia,diagnosticos,internados
1844,cordoba,2021-05-01,2,8,4969,19
1875,cordoba,2021-05-02,5,5,3724,21
1903,cordoba,2021-05-03,10,2,4178,19
1934,cordoba,2021-05-04,8,17,6122,47
1964,cordoba,2021-05-05,11,30,7018,53
1995,cordoba,2021-05-06,52,46,6112,121
2025,cordoba,2021-05-07,34,16,9136,83
2056,cordoba,2021-05-08,20,15,10028,47
2087,cordoba,2021-05-09,5,7,1380,10
2117,cordoba,2021-05-10,3,1,3232,2


A continuación vamos a **aplicar algunos filtros** sobre el dataframe "covid_cordoba" que nos ayudan a contestar ciertas preguntas

In [6]:
# Días con cantidad de fallecidos mayor a 50

covid_cordoba[(covid_cordoba.fallecidos>50)]

Unnamed: 0,ubicacion,fecha,fallecidos,terapia,diagnosticos,internados
1995,cordoba,2021-05-06,52,46,6112,121
1986,cordoba,2021-05-27,61,44,12815,146
1990,cordoba,2021-05-31,54,30,10457,140


In [7]:
# Días con cantidad internados en terapia entre 20 y 25

covid_cordoba[(covid_cordoba.terapia>=20) & (covid_cordoba.terapia<=25)]

Unnamed: 0,ubicacion,fecha,fallecidos,terapia,diagnosticos,internados
1982,cordoba,2021-05-23,45,22,2462,97


In [8]:
# Día con mayor cantidad de fallecidos

covid_cordoba[(covid_cordoba.fallecidos == covid_cordoba['fallecidos'].max() )]

Unnamed: 0,ubicacion,fecha,fallecidos,terapia,diagnosticos,internados
1986,cordoba,2021-05-27,61,44,12815,146


In [9]:
# Cantidad total de diagnósticos realizados en el mes

covid_cordoba['diagnosticos'].sum()

218905

In [10]:
# Día con menor cantidad de internados

covid_cordoba[(covid_cordoba.internados == covid_cordoba['internados'].min() )]

Unnamed: 0,ubicacion,fecha,fallecidos,terapia,diagnosticos,internados
2148,cordoba,2021-05-11,1,0,2383,0
2178,cordoba,2021-05-12,1,0,798,0


In [11]:
# Promedio mensual de diagnósticos

covid_cordoba['diagnosticos'].mean() 

7061.451612903225

In [12]:
# Desvío estandar de diagnósticos

covid_cordoba['diagnosticos'].std() 

3557.169416251351

In [13]:
# Días en los cuales la cantidad de diagnósticos supero el promedio mensual

covid_cordoba[(covid_cordoba.diagnosticos > covid_cordoba['diagnosticos'].mean() )]

Unnamed: 0,ubicacion,fecha,fallecidos,terapia,diagnosticos,internados
2025,cordoba,2021-05-07,34,16,9136,83
2056,cordoba,2021-05-08,20,15,10028,47
1972,cordoba,2021-05-13,11,28,8549,93
1973,cordoba,2021-05-14,17,33,9812,95
1976,cordoba,2021-05-17,24,33,12238,114
1977,cordoba,2021-05-18,21,27,11472,105
1978,cordoba,2021-05-19,25,40,8399,116
1979,cordoba,2021-05-20,24,38,8802,120
1980,cordoba,2021-05-21,28,36,11537,104
1981,cordoba,2021-05-22,28,41,7278,109


In [14]:
# Se muestra una serie con un resumen descriptivo 

covid_cordoba.describe() 

Unnamed: 0,fallecidos,terapia,diagnosticos,internados
count,31.0,31.0,31.0,31.0
mean,24.516129,24.741935,7061.451613,82.387097
std,16.901422,14.273443,3557.169416,48.838289
min,1.0,0.0,798.0,0.0
25%,10.5,15.5,3951.0,47.0
50%,24.0,28.0,7278.0,97.0
75%,36.0,36.0,9920.0,115.0
max,61.0,46.0,12815.0,160.0


# Parte II: gráficar datos

Continua en el [siguiente cuaderno](https://www.kaggle.com/fernandobordi/fb-visualizaci-n-graficaci-n-b-sica-parte-ii)