# Análisis Exploratorio de Datos (EDA) - COVID-19

## Presentaodo por:
- **Edwin Silva Salas**
- **Cristian Restrepo Zapata**
- **Carlos Preciado Cárdenas**

## Fase 1: Carga y Exploración Inicial de Datos

En esta primera fase del taller, realizaremos un análisis exploratorio de datos (EDA) sobre los casos confirmados de COVID-19 a nivel global. El objetivo es familiarizarnos con la estructura de los datos y obtener insights preliminares.

### Objetivos de la Fase 1:
1. **Cargar los datos**: Importar el archivo `time_series_covid19_confirmed_global.csv` que contiene información de casos confirmados por país y fecha.
2. **Inspeccionar la estructura**: Examinar las dimensiones, tipos de datos y valores faltantes.
3. **Análisis preliminar**: Identificar países con mayor número de casos, tendencias temporales y patrones relevantes.
4. **Visualización inicial**: Crear gráficos básicos para entender la distribución y evolución de los casos.

### Descripción del Dataset:
El dataset contiene información de casos confirmados de COVID-19 reportados por la Universidad Johns Hopkins. Cada fila representa un país/región y las columnas representan fechas con el número acumulado de casos confirmados.

---

## 1. Carga de Datos

In [1]:
import pandas as pd
# Leer el archivo CSV
df = pd.read_csv('../Data/time_series_covid19_confirmed_global.csv')

# Mostrar las primeras y ultimas filas
df.head(300)

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/28/23,3/1/23,3/2/23,3/3/23,3/4/23,3/5/23,3/6/23,3/7/23,3/8/23,3/9/23
0,,Afghanistan,33.939110,67.709953,0,0,0,0,0,0,...,209322,209340,209358,209362,209369,209390,209406,209436,209451,209451
1,,Albania,41.153300,20.168300,0,0,0,0,0,0,...,334391,334408,334408,334427,334427,334427,334427,334427,334443,334457
2,,Algeria,28.033900,1.659600,0,0,0,0,0,0,...,271441,271448,271463,271469,271469,271477,271477,271490,271494,271496
3,,Andorra,42.506300,1.521800,0,0,0,0,0,0,...,47866,47875,47875,47875,47875,47875,47875,47875,47890,47890
4,,Angola,-11.202700,17.873900,0,0,0,0,0,0,...,105255,105277,105277,105277,105277,105277,105277,105277,105288,105288
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284,,West Bank and Gaza,31.952200,35.233200,0,0,0,0,0,0,...,703228,703228,703228,703228,703228,703228,703228,703228,703228,703228
285,,Winter Olympics 2022,39.904200,116.407400,0,0,0,0,0,0,...,535,535,535,535,535,535,535,535,535,535
286,,Yemen,15.552727,48.516388,0,0,0,0,0,0,...,11945,11945,11945,11945,11945,11945,11945,11945,11945,11945
287,,Zambia,-13.133897,27.849332,0,0,0,0,0,0,...,343012,343012,343079,343079,343079,343135,343135,343135,343135,343135


### 1.1. Dimensiones del Dataset

In [4]:
from IPython.display import display, Markdown, HTML

# Crear salida en Markdown
output_md = f"""

 **Número de filas:** {df.shape[0]}\n
 **Número de columnas:** {df.shape[1]}\n
 **Tamaño total:** {df.shape[0]} × {df.shape[1]}

"""

# Mostrar en formato Markdown
display(Markdown(output_md))



 **Número de filas:** 289

 **Número de columnas:** 1147

 **Tamaño total:** 289 × 1147



## 2. Transformación de datos (pivot)

Se evidencia que para facilitar el análisis del dataset es más conveniente transformar la estructura de los datos de formato ancho a formato largo. En el formato original, cada fecha está representada como una columna separada, lo que dificulta el análisis temporal y la visualización. Para solucionar esto, utilizamos el método **pivot** mediante la función `melt()` de pandas, que convierte las columnas de fechas en filas, creando una estructura más normalizada y manejable donde cada registro representa un país/región en una fecha específica con su respectivo número de casos confirmados.

In [53]:
from IPython.display import display, Markdown

# Identificar columnas de metadatos vs fechas
id_cols = ['Province/State', 'Country/Region', 'Lat', 'Long']
date_cols = [col for col in df.columns if col not in id_cols]

# Transformar de formato ancho a largo (MELT)
df_long = df.melt(
    id_vars=id_cols,           # Columnas que se mantienen
    value_vars=date_cols,       # Columnas que se convierten en filas
    var_name='Date',            # Nombre para la columna de fechas
    value_name='Cases'          # Nombre para la columna de valores
)

# Convertir la columna Date a tipo datetime
df_long['Date'] = pd.to_datetime(df_long['Date'], format='%m/%d/%y')

# Ordenar por país y fecha
df_long = df_long.sort_values(['Country/Region', 'Date']).reset_index(drop=True)

# Configurar pandas para mostrar más filas
pd.set_option('display.max_rows', 10)
display(df_long.head(10))

#df_long.head(330327)

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Cases
0,,Afghanistan,33.93911,67.709953,2020-01-22,0
1,,Afghanistan,33.93911,67.709953,2020-01-23,0
2,,Afghanistan,33.93911,67.709953,2020-01-24,0
3,,Afghanistan,33.93911,67.709953,2020-01-25,0
4,,Afghanistan,33.93911,67.709953,2020-01-26,0
5,,Afghanistan,33.93911,67.709953,2020-01-27,0
6,,Afghanistan,33.93911,67.709953,2020-01-28,0
7,,Afghanistan,33.93911,67.709953,2020-01-29,0
8,,Afghanistan,33.93911,67.709953,2020-01-30,0
9,,Afghanistan,33.93911,67.709953,2020-01-31,0


In [6]:
# Crear salida en Markdown
output_md = f"""

 **Número de filas:** {df_long.shape[0]}\n
 **Número de columnas:** {df_long.shape[1]}\n
 **Tamaño total:** {df_long.shape[0]} × {df_long.shape[1]}

"""

# Mostrar en formato Markdown
display(Markdown(output_md))



 **Número de filas:** 330327

 **Número de columnas:** 6

 **Tamaño total:** 330327 × 6



## 3. Análisis de Calidad de Datos

En esta sección realizaremos un análisis exhaustivo de la calidad de los datos para identificar:
- Datos faltantes (valores nulos o NaN)
- Valores erróneos o inconsistentes
- Valores atípicos (outliers)
- Duplicados
- Tipos de datos incorrectos

### 3.1 Datos faltantes (valores nulos o NaN)

In [9]:
from IPython.display import display, Markdown
import matplotlib.pyplot as plt
import seaborn as sns

# Análisis de datos faltantes
null_counts = df_long.isnull().sum()
null_percentage = (df_long.isnull().sum() / len(df_long)) * 100

# Crear DataFrame con resultados
missing_data = pd.DataFrame({
    'Columna': null_counts.index,
    'Valores Faltantes': null_counts.values,
    'Porcentaje (%)': null_percentage.values
})

# Mostrar resumen en Markdown
display(Markdown(f"""**Total de filas en el dataset:** {len(df_long)}"""))

# Mostrar tabla de datos faltantes
display(missing_data)


**Total de filas en el dataset:** 330327

Unnamed: 0,Columna,Valores Faltantes,Porcentaje (%)
0,Province/State,226314,68.512111
1,Country/Region,0,0.0
2,Lat,2286,0.692042
3,Long,2286,0.692042
4,Date,0,0.0
5,Cases,0,0.0


### 3.1.1. Interpretación de la Tabla de Datos Faltantes

La tabla anterior muestra un análisis detallado de los valores faltantes (nulos) en el dataset transformado de COVID-19. A continuación se explican los hallazgos para cada columna:

#### **Province/State** (Provincia/Estado)
- **Valores faltantes:** 226,314
- **Porcentaje:** 68.51%
- **Interpretación:** Esta es la columna con mayor cantidad de datos faltantes. Esto es **esperado y normal**, ya que muchos países reportan datos a nivel nacional sin desglose por provincias o estados. Por ejemplo, países pequeños como Andorra o Luxemburgo no tienen subdivisiones provinciales en el reporte.

#### **Lat** (Latitud) y **Long** (Longitud)
- **Valores faltantes:** 2,286 en cada una
- **Porcentaje:** 0.69%
- **Interpretación:** Un porcentaje muy bajo de registros sin coordenadas geográficas. Estos corresponden principalmente a categorías especiales como "Repatriated Travellers" (viajeros repatriados) o "Unknown" (desconocido), que no tienen una ubicación geográfica específica.

- **Interpretación:** **Datos completos**. Todos los registros tienen el número de casos confirmados, que es la variable principal de análisis.

#### Conclusión sobre Calidad de Datos:

El dataset presenta una **excelente calidad general**:
- Las columnas críticas (País, Fecha y Casos) están 100% completas
- Los valores faltantes en Province/State son estructurales (no todos los países reportan por provincia)
- Solo 0.69% de registros carecen de coordenadas geográficas, principalmente en categorías especiales que no requieren geolocalización

**Recomendación:** No es necesario eliminar registros por datos faltantes. Los valores nulos en Province/State y coordenadas pueden manejarse según el tipo de análisis a realizar.

### 3.2 Valores erróneos o inconsistentes

A continuación se realiza la verificación de valores erroneos o incosistentes sobre la columna **Country/Region**

In [24]:
from IPython.display import display, Markdown

# 1. Análisis de la columna Country/Region
display(Markdown("""#### Análisis de Country/Region"""))

unique_countries = df_long['Country/Region'].nunique()
display(Markdown(f"Total de países/regiones únicos: {unique_countries}"))

# Verificar inconsistencias en nombres
countries_list = sorted(df_long['Country/Region'].unique())
problems_country = []
for country in countries_list:
    if country != country.strip():
        problems_country.append({'País': country, 'Problema': 'Espacios extra'})
    if any(char in country for char in ['_', '|', '@', '#']):
        problems_country.append({'País': country, 'Problema': 'Caracteres especiales'})

if len(problems_country) > 0:
    display(Markdown("Se encontraron inconsistencias:"))
    display(pd.DataFrame(problems_country))
else:
    display(Markdown("No se encontraron inconsistencias en nombres de países"))


#### Análisis de Country/Region

Total de países/regiones únicos: 201

No se encontraron inconsistencias en nombres de países

A continuación se realiza la verificación de valores erroneos o incosistentes sobre la columna **Province/State**

In [47]:
# 2. Análisis de Province/State
display(Markdown("""#### Análisis de Province/State"""))

unique_provinces = df_long['Province/State'].nunique()
display(Markdown(f"Total de provincias/estados únicos: {unique_provinces}"))


display(Markdown(f"Muestra de los Country/Region con sus provincias/estados, solo estos tienen Province/State"))
provinces_by_country = df_long.groupby('Country/Region')['Province/State'].nunique().sort_values(ascending=False)
provinces_by_country = provinces_by_country[provinces_by_country > 0]
pd.set_option('display.max_rows', 100)   
display(provinces_by_country.head(10).to_frame())


#### Análisis de Province/State

Total de provincias/estados únicos: 91

Muestra de los Country/Region con sus provincias/estados, solo estos tienen Province/State

Unnamed: 0_level_0,Province/State
Country/Region,Unnamed: 1_level_1
China,34
Canada,16
United Kingdom,14
France,11
Australia,8
Netherlands,4
New Zealand,2
Denmark,2


No existen valores incongruentes o erroneos sobre **Province/State**

A continuación se realiza la verificación de valores erroneos o incosistentes sobre las columnas **Coordenaas LAT y LONG**

In [50]:
# 3. Verificar rangos válidos de coordenadas
display(Markdown("""
---
#### Análisis de Coordenadas Geográficas
"""))

invalid_coords = df_long[
    ((df_long['Lat'].notna()) & ((df_long['Lat'] < -90) | (df_long['Lat'] > 90))) |
    ((df_long['Long'].notna()) & ((df_long['Long'] < -180) | (df_long['Long'] > 180)))
]

if len(invalid_coords) > 0:
    display(Markdown(f"**{len(invalid_coords)} registros con coordenadas fuera de rango**"))
    display(invalid_coords[['Country/Region', 'Province/State', 'Lat', 'Long']].drop_duplicates().head(10))
else:
    display(Markdown("**Todas las coordenadas están en rangos válidos (-90/90, -180/180)**"))




---
#### Análisis de Coordenadas Geográficas


**Todas las coordenadas están en rangos válidos (-90/90, -180/180)**

A continuación se realiza la verificación de valores erroneos o incosistentes sobre la columna **Cases**

In [51]:
# 4. Verificar valores negativos en Cases
display(Markdown("""
---
#### Verificación de Valores Negativos
"""))

negative_cases = df_long[df_long['Cases'] < 0]
if len(negative_cases) > 0:
    display(Markdown(f"**ALERTA: {len(negative_cases):,} registros con casos negativos**"))
    display(negative_cases[['Country/Region', 'Province/State', 'Date', 'Cases']].head(10))
else:
    display(Markdown("**No hay valores negativos en Cases**"))




---
#### Verificación de Valores Negativos


**No hay valores negativos en Cases**

### 3.3 Valores atípicos (outliers)


### 3.4 Duplicados


### 3.5 Tipos de datos incorrectos