## 1. Ebola World Health Organization data
Las enfermedades es algo con lo que siempre vivira el humano, con el tiempo se han desarrollado enfermedades que pueden ser mucho mas potentes que otras, el ebola, el covid, la gripa h1n1, etc. 
Enfermedades que aparecen en un momento extraño en la vida del ser humano por situaciones exteriores, o por su vivencia con la naturaleza.
Hay organizaciones como: la organizacion mundial de salud que lleva este tipo de casos y que obtienen datos en los hospitales.
En este caso analizaremos los datos del ebola suministrado por la organizacion mundial de salud. El objetivo es ir sacando conclusiones por la informacion suminstrada. La base de datos contiene informacion sobre 3 tablas:

### Ebola dataset:
* Pais
* Casos posibles, casos confirmados, todos los casos o casos sospechoso
* Total de casos
* Casos en los ultimos 21 dias
* Total de muertes
* Fecha de reporte
* Muertes en los ultimos 21 dias
* Casos ultimos 7 dias

### Casos Medicos dataset:
* Pais
* Casos posibles, casos confirmados, todos los casos o casos sospechosos
* Numero total de casos en medicos
* Fechas de reportes

### Medicos muertos dataset: 
* Pais
* Numero total de muertes en medicos
* Fecha de reporte



La primera linea de codigo se hara para ver un breve repaso de cual es nuestra base de datos principal:

In [20]:
%%sql 
SELECT * 
FROM ebola
LIMIT 10;

 * postgresql://postgres:***@localhost:5432/postgres
10 rows affected.


country,cases,total_cases,cases_last_21days,total_deaths,report_date,deaths_last_21days,cases_last_7days
Guinea,Confirmed,3351,0,2083,2015-12-27,,
Liberia2,Confirmed,9,0,3,2015-12-27,,
Guinea,Confirmed,3351,0,2083,2015-12-27,,
Guinea,Confirmed,3351,0,2083,2015-12-27,,
Liberia2,Confirmed,9,0,3,2015-12-20,,
Guinea,Confirmed,3351,0,2083,2015-12-20,,
Liberia2,Confirmed,9,0,3,2015-12-13,,
Guinea,Confirmed,3351,0,2083,2015-12-13,,
Liberia2,Confirmed,9,3,3,2015-12-06,,
Guinea,Confirmed,3351,0,2083,2015-12-06,,


## 2. Limpieza de datos: sustituir valores nulos
En este caso vemos que hay varios valores nulos, lo mejor seria trabajar con una base de datos que no tenga este tipo de valores porque nos pueden afectar a largo plazo, tambien vemos que se puede remplazar un valor en la columna country, para que se pueda manejar de una manera mas segura. Las siguientes lineas de codigo son para remplazar los valores nulos, mientras actualizamos nuestra tabla original:

In [26]:
%%sql
UPDATE ebola
SET deaths_last_21days = COALESCE(deaths_last_21days, 1)

 * postgresql://postgres:***@localhost:5432/postgres
6786 rows affected.


[]

In [28]:
%%sql 
UPDATE ebola
SET cases_last_7days = COALESCE(cases_last_7days, 0)

 * postgresql://postgres:***@localhost:5432/postgres
6786 rows affected.


[]

In [35]:
%%sql 
UPDATE ebola
SET cases_last_21days = COALESCE(cases_last_21days, 0)

 * postgresql://postgres:***@localhost:5432/postgres
6786 rows affected.


[]

In [39]:
%%sql
UPDATE ebola
SET total_cases = COALESCE(total_cases, 0)

 * postgresql://postgres:***@localhost:5432/postgres
6786 rows affected.


[]

In [45]:
%%sql
UPDATE ebola
SET total_deaths = COALESCE(total_deaths, 0)

 * postgresql://postgres:***@localhost:5432/postgres
6786 rows affected.


[]

## 2.1 Limpieza de datos: remplazar valores
En este caso se va a remplazar el valor en country, para que no hayan counfusiones en base a ello.

In [49]:
%%sql
UPDATE ebola
SET country = REPLACE(country, 'Liberia2', 'Liberia 2')

 * postgresql://postgres:***@localhost:5432/postgres
6786 rows affected.


[]

## 2.3 Limpieza de datos: eliminar columnas que son innecesarias
Teniendo en cuenta que se que no trabajare con algunas columnas, lo mejor seria eliminarlas, esto no es algo que se suela hacer, eso depende de la situacion.

In [54]:
%%sql
ALTER TABLE ebola
DROP COLUMN new_deaths_last_21days;

 * postgresql://postgres:***@localhost:5432/postgres
Done.


[]

In [56]:
%%sql 
ALTER TABLE ebola 
DROP COLUMN cases_last_7days;

 * postgresql://postgres:***@localhost:5432/postgres
Done.


[]

## 2.5 Limpieza de datos otras tablas
En este caso se mira si hay valores nulos, o si se puede hacer algun tipo de limpieza de datos en las otras tablas que tenemos.

In [63]:
%%sql
SELECT COUNT(*) AS valores_nulos
FROM medicosmuertos
WHERE total_deaths IS NULL;

 * postgresql://postgres:***@localhost:5432/postgres
1 rows affected.


valores_nulos
0


In [62]:
%%sql
SELECT COUNT(*) AS valores_nulos
FROM casosmedicos
WHERE total_cases IS NULL;

 * postgresql://postgres:***@localhost:5432/postgres
1 rows affected.


valores_nulos
0


## 2.6 Limpieza de datos: completo
Como ya vimos que no hay valores nulos, en las otras tablas. Las bases de datos ahora se pueden manejar mejor. En la siguiente query se podra ver como quedaron los datos despues de su respectiva limpieza:

In [103]:
%%sql
SELECT *
FROM ebola
WHERE report_date iS NOT NULL
LIMIT 10;

 * postgresql://postgres:***@localhost:5432/postgres
10 rows affected.


country,cases,total_cases,cases_last_21days,total_deaths,report_date,deaths_last_21days
Spain,Confirmed,1,0,0,2014-12-02,0
Spain,Confirmed,1,0,0,2014-12-02,0
Spain,Confirmed,1,0,0,2014-12-02,0
Spain,Confirmed,1,0,0,2014-12-02,0
United Kingdom,Confirmed,1,0,0,2014-12-02,0
Spain,Confirmed,1,0,0,2014-12-02,0
Spain,Confirmed,1,0,0,2014-12-02,0
Spain,Confirmed,1,0,0,2014-12-02,0
Spain,Confirmed,1,0,0,2014-12-02,0
Spain,Confirmed,1,0,0,2014-12-02,0


## 3 Exploracion de datos: Total casos y muertes en paciente
Es muy importante saber cuantos casos y muertes hubieron en total para saber cuantas personas murieron en base a la enfermedad.
Sabiendo esto podriamos saber si la enfermedad es altamente mortal o si no lo es en base a la cantidad de casos totales, tambien si la enfermedad se propaga facilmente.

In [68]:
%%sql 
SELECT SUM(total_cases) AS total_casos, SUM(total_deaths) AS total_muertos
FROM ebola;

 * postgresql://postgres:***@localhost:5432/postgres
1 rows affected.


total_casos,total_muertos
7965218,2545282


## 3.1 Exploracion de datos: paises con mayor numero de muertos registrados
En este caso tambien se buscaria cuales son los paises con mayor cantidad de muertos en base a su pais, si existe algun tipo de coincidencia o si no existe, tambien demostrar  que tanto la enfermedad impacto cada pais en base a sus respectivos casos.

In [71]:
%%sql
SELECT country, MAX(total_deaths) AS maximo_muertos
FROM ebola
GROUP BY country
ORDER BY maximo_muertos DESC;

 * postgresql://postgres:***@localhost:5432/postgres
11 rows affected.


country,maximo_muertos
Liberia,4806
Sierra Leone,3955
Guinea,2536
Nigeria,8
Mali,6
Liberia 2,3
United States of America,1
Senegal,0
Italy,0
Spain,0


## 3.2 Exploracion de datos: paises con numeros de casos probables
Se va a recurrir a la columna ''cases'' para saber cuales son los paises con el conteo mas alto de casos probables, ya que en este caso no estan completamente confirmados.

In [78]:
%%sql 
SELECT country, cases, COUNT(*) AS casos_probables
FROM ebola
WHERE cases = 'Probable'
GROUP BY country, cases
ORDER BY casos_probables DESC;

 * postgresql://postgres:***@localhost:5432/postgres
11 rows affected.


country,cases,casos_probables
Guinea,Probable,192
Sierra Leone,Probable,192
Liberia,Probable,192
Nigeria,Probable,192
Senegal,Probable,188
United States of America,Probable,172
Spain,Probable,168
Mali,Probable,160
United Kingdom,Probable,114
Italy,Probable,70


## 3.3 Exploracion de datos: ¿hay muertos en USA en los ultimos 21 dias despues de la fecha?
Resulta interesante que USA al ser un pais tan visitado no tuvo muchos casos maximos registrados de cierta manera, se recurre a la siguiente linea de codigo para comprobar si hubieron muertos en los ultimos 21 dias despues de la fecha de registro.

In [125]:
%%sql
SELECT country, total_cases, total_deaths, deaths_last_21days
FROM ebola
WHERE country LIKE '%States%'
LIMIT 10;

 * postgresql://postgres:***@localhost:5432/postgres
10 rows affected.


country,total_cases,total_deaths,deaths_last_21days
United States of America,0,0,0
United States of America,0,0,0
United States of America,4,1,0
United States of America,4,1,0
United States of America,4,1,0
United States of America,0,0,0
United States of America,0,0,0
United States of America,0,0,0
United States of America,4,1,0
United States of America,4,1,0


## 3.4 Exploracion de datos: Casos y muertes que hubieron en USA en total
Estados Unidos siempre se ha caracterizado por ser un pais muy turista y tener muchas diversidades de poblacion, ademas de que es innegable que es una potencia mundial por ende me parece interesante saber que tanto afecto el ebola a su poblacion.

In [88]:
%%sql
SELECT country, total_cases, total_deaths, SUM(total_cases) AS usa_cases, SUM(total_deaths) AS usa_deaths
FROM ebola
WHERE country LIKE '%States%'
GROUP BY country, total_cases, total_deaths
ORDER BY usa_deaths DESC;

 * postgresql://postgres:***@localhost:5432/postgres
5 rows affected.


country,total_cases,total_deaths,usa_cases,usa_deaths
United States of America,4,1,1280,320
United States of America,3,1,24,8
United States of America,2,1,8,4
United States of America,1,0,12,0
United States of America,0,0,0,0


## 3.5 Exploracion de datos: muertos totales por pais
Me resulta interesante saber cuantas personas murieron por pais, haciendo un overall de todos ellos. En base a que este tipo de resultados se pueden comparar con otras enfermedades potencialmente mortales por las que ha tenido que pasar el ser humano.

In [83]:
%%sql 
SELECT country, SUM(total_deaths) AS total_deaths_country
FROM ebola
GROUP BY country
HAVING SUM(total_deaths) > 1
ORDER BY total_deaths_country DESC;

 * postgresql://postgres:***@localhost:5432/postgres
7 rows affected.


country,total_deaths_country
Sierra Leone,1068912
Liberia,771908
Guinea,699864
Nigeria,3068
Mali,950
United States of America,332
Liberia 2,248


## 3.6 Exploracion de datos: casos totales confirmados en medicos y pacientes por fecha
Se busca hacer una union con la otra tabla, para ver que tanto se afectaron los medicos y pacientes confirmados comparandolos en base a la enfermedad.

In [85]:
%%sql
SELECT DISTINCT E.country, E.report_date, E.cases, SUM(E.total_cases) AS casos_pacientes_medicos
FROM ebola AS E
INNER JOIN casosmedicos AS C
 ON E.country = C.country AND E.report_date = C.report_date
WHERE E.cases = 'Confirmed'
GROUP BY E.country, E.report_date, E.cases
ORDER BY casos_pacientes_medicos DESC
LIMIT 10;

 * postgresql://postgres:***@localhost:5432/postgres
10 rows affected.


country,report_date,cases,casos_pacientes_medicos
Sierra Leone,2014-12-28,Confirmed,29416
Sierra Leone,2014-12-21,Confirmed,28068
Sierra Leone,2014-10-19,Confirmed,25784
Sierra Leone,2014-10-12,Confirmed,22792
Sierra Leone,2014-09-28,Confirmed,16608
Sierra Leone,2015-01-11,Confirmed,15572
Sierra Leone,2014-09-21,Confirmed,13960
Sierra Leone,2014-12-14,Confirmed,13404
Sierra Leone,2014-12-07,Confirmed,12750
Liberia,2014-12-28,Confirmed,12440


## 3.7 Exploracion de datos: casos totales de muertos en medicos y pacientes
Se mirara el total de medicos y pacientes muertos, que tantos medicos murieron en base a pacientes con los que tuvieron contacto.

In [92]:
%%sql 
SELECT DISTINCT E.country, E.report_date, SUM(E.total_deaths) AS muertos_pacientes_doctores
FROM ebola AS E
INNER JOIN medicosmuertos AS M
 ON E.country = M.country AND E.report_date = M.report_date
GROUP BY E.country, E.report_date, E.cases
ORDER BY muertos_pacientes_doctores DESC
LIMIT 10;

 * postgresql://postgres:***@localhost:5432/postgres
10 rows affected.


country,report_date,muertos_pacientes_doctores
Sierra Leone,2014-12-28,9568
Sierra Leone,2014-12-21,8864
Guinea,2014-12-28,5732
Sierra Leone,2015-01-11,5392
Guinea,2014-12-21,5376
Sierra Leone,2014-12-14,3752
Sierra Leone,2014-12-07,3118
Guinea,2015-01-11,3060
Sierra Leone,2014-11-30,2748
Guinea,2014-12-14,2524


## 3.8 Exploracion de datos: muertos acumulativos por pais pacientes y medicos
Es importante saber cuantos muertos hubieron en total por pais, acumulandolos, para ver mejor un total de cuantas personas murieron en dicho pais.

In [93]:
%%sql
SELECT DISTINCT E.country, SUM(E.total_deaths) OVER(PARTITION BY E.country ORDER BY E.country) AS cumulativo
FROM ebola AS E
INNER JOIN medicosmuertos AS M
 ON E.country = M.country
ORDER BY cumulativo DESC;

 * postgresql://postgres:***@localhost:5432/postgres
5 rows affected.


country,cumulativo
Sierra Leone,63065808
Liberia,45542572
Guinea,41291976
Nigeria,177944
Mali,46550


## 3.9 Exploracion de datos: top 3 paises con mayor cantidad de casos
Para finalizar se busca saber cuales fueron los paises con mayor cantidad de casos, enumerandolos, teniendo en cuenta que son los potencialmente afectados por la enfermedad.

In [124]:
%%sql
WITH promedio AS(SELECT country, MAX(total_cases) AS max_total_cases
FROM ebola
GROUP BY country),
top AS(SELECT country, max_total_cases, ROW_NUMBER() OVER(ORDER BY max_total_cases DESC) AS top_country
	  FROM promedio)
SELECT country, max_total_cases, top_country
FROM top
ORDER BY top_country
LIMIT 3;

 * postgresql://postgres:***@localhost:5432/postgres
3 rows affected.


country,max_total_cases,top_country
Sierra Leone,14122,1
Liberia,10666,2
Guinea,3810,3


## 3.10 Exploracion de datos: creacion de vista
El proposito de crear las vistas es para despues visualizarlas en tableau, en este mismo portafolio se utilizaron varias querys para crear dichas visualizaciones.

In [99]:
%%sql
CREATE VIEW cumulativospaises AS
SELECT DISTINCT E.country, SUM(E.total_deaths) OVER(PARTITION BY E.country ORDER BY E.country) AS cumulativo
FROM ebola AS E
INNER JOIN medicosmuertos AS M
 ON E.country = M.country
ORDER BY cumulativo DESC

 * postgresql://postgres:***@localhost:5432/postgres
Done.


[]

## 3.11 Exploracion de datos: vista
La vista se mostrara de la siguiente manera ya que esta lista para usarse:

In [100]:
%%sql
SELECT * 
FROM cumulativospaises

 * postgresql://postgres:***@localhost:5432/postgres
5 rows affected.


country,cumulativo
Sierra Leone,63065808
Liberia,45542572
Guinea,41291976
Nigeria,177944
Mali,46550
