
<h1 align=center><font size = 5>Introducción a Data Science por Javier Navarro</font></h1>

### Importar librerías

In [12]:
import numpy as np
import pandas as pd
import folium

### Cargar datos para realizar el análisis

#### Opción 1: Importar directamente de la Web (se aleja de los propositos de esta presentación, pero es útil y práctico)

Se pasa como parametro la url donde se encuentra el conjunto de datos.

In [27]:
df= pd.read_excel('https://covid.ourworldindata.org/data/owid-covid-data.csv')
df.head()

Unnamed: 0,dateRep,day,month,year,cases,deaths,countriesAndTerritories,geoId,countryterritoryCode,popData2018,continentExp
0,2020-04-21,21,4,2020,35,2,Afghanistan,AF,AFG,37172386.0,Asia
1,2020-04-20,20,4,2020,88,3,Afghanistan,AF,AFG,37172386.0,Asia
2,2020-04-19,19,4,2020,63,0,Afghanistan,AF,AFG,37172386.0,Asia
3,2020-04-18,18,4,2020,51,1,Afghanistan,AF,AFG,37172386.0,Asia
4,2020-04-17,17,4,2020,10,4,Afghanistan,AF,AFG,37172386.0,Asia


#### Opción 2: Importar de una base de datos relacional

Para esta opción lo más sencillo es utilizar un asistente, tal como el que provee Microsoft SQL Server, para exportar la tabla, vista o bien, exportar mediante cualquier consulta un conjunto de datos a un archivo .csv (separado por comas)

In [26]:
df= pd.read_csv('entrada_actualizada.csv')
df.head()

Unnamed: 0,iso_code,location,date,total_cases,new_cases,total_deaths,new_deaths,total_cases_per_million,new_cases_per_million,total_deaths_per_million,new_deaths_per_million,total_tests,new_tests,total_tests_per_thousand,new_tests_per_thousand,tests_units
0,ABW,Aruba,2020-03-13,2,2,0,0,18.733,18.733,0.0,0.0,,,,,
1,ABW,Aruba,2020-03-20,4,2,0,0,37.465,18.733,0.0,0.0,,,,,
2,ABW,Aruba,2020-03-24,12,8,0,0,112.395,74.93,0.0,0.0,,,,,
3,ABW,Aruba,2020-03-25,17,5,0,0,159.227,46.831,0.0,0.0,,,,,
4,ABW,Aruba,2020-03-26,19,2,0,0,177.959,18.733,0.0,0.0,,,,,


# Analizando los datos <a id="8"></a>


## Limpieza de los datos
Tomaremos únicamente las columnas que nos interesan.

In [27]:
df=df[['iso_code','total_cases']]
df.head()

Unnamed: 0,iso_code,total_cases
0,ABW,2
1,ABW,4
2,ABW,12
3,ABW,17
4,ABW,19


Agruparemos la información para que podamos obtener la cantidad de casos que hay por país.

In [28]:
df=df.groupby('iso_code').sum().reset_index()
df.head()

Unnamed: 0,iso_code,total_cases
0,ABW,1880
1,AFG,12325
2,AGO,385
3,AIA,71
4,ALB,10824


Por ser más claros, traduciremos el nombre de las columnas

In [29]:
df.rename(columns={'iso_code':'cod_pais', 'total_cases':'casos'}, inplace=True)
df.head()

Unnamed: 0,cod_pais,casos
0,ABW,1880
1,AFG,12325
2,AGO,385
3,AIA,71
4,ALB,10824


Convertimos el tipo de los casos a entero.

In [30]:
df[['casos']]=df[['casos']].astype('int64')
df.head()

Unnamed: 0,cod_pais,casos
0,ABW,1880
1,AFG,12325
2,AGO,385
3,AIA,71
4,ALB,10824


Now that we have the GeoJSON file, let's create a world map, centered around **[0, 0]** *latitude* and *longitude* values, with an intial zoom level of 2, and using *Mapbox Bright* style.

In [53]:

world_geo = r'world_countries.json' # geojson file
world_map = folium.Map(location=[0, 0], zoom_start=2, tiles='Mapbox Bright')


In [54]:
# generate choropleth map using the total immigration of each country to Canada from 1980 to 2013
world_map.choropleth(
    geo_data=world_geo,
    data=df,
    columns=['cod_pais', 'casos'],
    key_on='feature.id',
    fill_color='YlOrRd', 
    fill_opacity=0.7, 
    line_opacity=0.2,
    legend_name='Casos de Covid19'
)

# display map
world_map