# Análisis Exploratorio de Datos (EDA) - COVID-19

## Fase 1: Carga y Exploración Inicial de Datos

En esta primera fase del taller, realizaremos un análisis exploratorio de datos (EDA) sobre los casos confirmados de COVID-19 a nivel global. El objetivo es familiarizarnos con la estructura de los datos y obtener insights preliminares.

### Objetivos de la Fase 1:
1. **Cargar los datos**: Importar el archivo `time_series_covid19_confirmed_global.csv` que contiene información de casos confirmados por país y fecha.
2. **Inspeccionar la estructura**: Examinar las dimensiones, tipos de datos y valores faltantes.
3. **Análisis preliminar**: Identificar países con mayor número de casos, tendencias temporales y patrones relevantes.
4. **Visualización inicial**: Crear gráficos básicos para entender la distribución y evolución de los casos.

### Descripción del Dataset:
El dataset contiene información de casos confirmados de COVID-19 reportados por la Universidad Johns Hopkins. Cada fila representa un país/región y las columnas representan fechas con el número acumulado de casos confirmados.

---

## 1. Carga de Datos

In [21]:
import pandas as pd
# Leer el archivo CSV
df = pd.read_csv('../Data/time_series_covid19_confirmed_global.csv')

# Mostrar las primeras y ultimas filas
df.head(300)

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/28/23,3/1/23,3/2/23,3/3/23,3/4/23,3/5/23,3/6/23,3/7/23,3/8/23,3/9/23
0,,Afghanistan,33.939110,67.709953,0,0,0,0,0,0,...,209322,209340,209358,209362,209369,209390,209406,209436,209451,209451
1,,Albania,41.153300,20.168300,0,0,0,0,0,0,...,334391,334408,334408,334427,334427,334427,334427,334427,334443,334457
2,,Algeria,28.033900,1.659600,0,0,0,0,0,0,...,271441,271448,271463,271469,271469,271477,271477,271490,271494,271496
3,,Andorra,42.506300,1.521800,0,0,0,0,0,0,...,47866,47875,47875,47875,47875,47875,47875,47875,47890,47890
4,,Angola,-11.202700,17.873900,0,0,0,0,0,0,...,105255,105277,105277,105277,105277,105277,105277,105277,105288,105288
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284,,West Bank and Gaza,31.952200,35.233200,0,0,0,0,0,0,...,703228,703228,703228,703228,703228,703228,703228,703228,703228,703228
285,,Winter Olympics 2022,39.904200,116.407400,0,0,0,0,0,0,...,535,535,535,535,535,535,535,535,535,535
286,,Yemen,15.552727,48.516388,0,0,0,0,0,0,...,11945,11945,11945,11945,11945,11945,11945,11945,11945,11945
287,,Zambia,-13.133897,27.849332,0,0,0,0,0,0,...,343012,343012,343079,343079,343079,343135,343135,343135,343135,343135


## 2. Dimensiones del Dataset

In [34]:
from IPython.display import display, Markdown, HTML

# Crear salida en Markdown
output_md = f"""

 **Número de filas:** {df.shape[0]}\n
 **Número de columnas:** {df.shape[1]}\n
 **Tamaño total:** {df.shape[0]} × {df.shape[1]}

"""

# Mostrar en formato Markdown
display(Markdown(output_md))



 **Número de filas:** 289

 **Número de columnas:** 1147

 **Tamaño total:** 289 × 1147



## 2. Análisis de Calidad de Datos

En esta sección realizaremos un análisis exhaustivo de la calidad de los datos para identificar:
- Datos faltantes (valores nulos o NaN)
- Valores erróneos o inconsistentes
- Valores atípicos (outliers)
- Duplicados
- Tipos de datos incorrectos