# Proyecto - Seminario de Sistemas 2 - Fase 2
# EDA Monovariable y Multivariable

## Lectura de Datos (SQL Server -> Pandas Dataframe) + Importaciones

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine


In [None]:
# Configuración de conexión a SQL Server
server = 'FROI-PC\\SQLEXPRESS'
database = 'covid-data'
trusted_connection = 'yes'

# Especificar el controlador de pyodbc en la cadena de conexión
conn_str = f'mssql+pyodbc://{server}/{database}?trusted_connection={trusted_connection}&driver=ODBC+Driver+17+for+SQL+Server'

# Crear el motor de SQLAlchemy
engine = create_engine(conn_str)

# Consulta SQL para extraer datos
sql_query_municipality = 'SELECT * FROM MUNICIPALITY'
sql_query_department = 'SELECT * FROM DEPARTMENT'
sql_query_municipality_deaths = 'SELECT * FROM MUNICIPALITY_DEATHS'
sql_query_country_deaths = 'SELECT * FROM COUNTRY_DEATHS'
sql_query_department_population = 'SELECT D.[code] AS DepartmentCode, D.[name] AS DepartmentName, SUM(M.[population]) AS TotalPopulation FROM [dbo].[DEPARTMENT] D JOIN [dbo].[MUNICIPALITY] M ON D.[code] = M.[department_code] GROUP BY D.[code], D.[name] ORDER BY CONVERT(INT, D.[code]);'

# Ejecutar la consulta y cargar los resultados en DataFrames
df_municipality = pd.read_sql(sql_query_municipality, engine)
df_department = pd.read_sql(sql_query_department, engine)
df_municipality_deaths = pd.read_sql(sql_query_municipality_deaths, engine)
df_country_deaths = pd.read_sql(sql_query_country_deaths, engine)
df_department_population = pd.read_sql(sql_query_department_population, engine)

In [None]:
df_municipality.head(4)
df_municipality.tail(4)

In [None]:
df_department.head(4)
df_department.tail(4)

In [None]:
df_municipality_deaths.head(4)
df_municipality_deaths.tail(4)

In [None]:
df_country_deaths.head(4)
df_country_deaths.tail(4)

In [None]:
df_country_deaths.dtypes

## Transformaciones

In [None]:
# Se
# Asegurar que la columna 'date' sea de tipo datetime64[ns]
df_country_deaths['date'] = pd.to_datetime(df_country_deaths['date'])

# Filtrar registros directamente en el mismo DataFrame
df_country_deaths = df_country_deaths[df_country_deaths['date'] > '2020-03-15']

## EDA Monovariable

### Análisis de Nuevas Muertes

In [None]:
# Estadísticas Descriptivas
describe = df_country_deaths['new_deaths'].describe()
print(f"Estadísticas descriptivas\n{describe}\n")

# Estadísticas de Conteo
count = df_country_deaths['new_deaths'].count()
print(f"Estadísticas de Conteo\n{count}\n")

# Valores únicos
unique = df_country_deaths['new_deaths'].unique()
nunique = df_country_deaths['new_deaths'].nunique()
print(f"Valores Únicos\n{unique}")
print(f"Valores Únicos (cantidad): {nunique}\n")
# Promedio
mean = df_country_deaths['new_deaths'].mean()
print(f"Promedio\n{mean}\n")

# Cuartiles
# Mediana (50%)
median_new_deaths = df_country_deaths['new_deaths'].median()

# Cuartiles (25%, 75%)
q1_new_deaths = df_country_deaths['new_deaths'].quantile(0.25)
q3_new_deaths = df_country_deaths['new_deaths'].quantile(0.75)

print("\nMediana para 'new_deaths':", median_new_deaths)
print("\nCuartil 25% para 'new_deaths':", q1_new_deaths)
print("\nCuartil 75% para 'new_deaths':", q3_new_deaths)

In [None]:
# Filtra los valores mayores que cero
filtered_data = df_country_deaths['new_deaths'][df_country_deaths['new_deaths'] > 0]

# Crea el histograma con la transformación logarítmica
sns.histplot(filtered_data, bins=20, kde=True, edgecolor='black', alpha=0.7)
plt.xlabel('Logaritmo de la población')
plt.ylabel('Frecuencia')
plt.title('Histograma de nuevas muertes')
plt.show()

In [None]:
plt.boxplot(df_country_deaths['new_deaths'])

plt.title('Diagrama de Caja de new_deaths en df_country_deaths')
plt.ylabel('Número de nuevas muertes')
plt.show()

### Análisis de Cantidad de Muertes Acumuladas

In [None]:
# Estadísticas Descriptivas
describe = df_country_deaths['cumulative_deaths'].describe()
print(f"Estadísticas descriptivas\n{describe}\n")

# Estadísticas de Conteo
count = df_country_deaths['cumulative_deaths'].count()
print(f"Estadísticas de Conteo\n{count}\n")

# Valores únicos
unique = df_country_deaths['cumulative_deaths'].nunique()
print(f"Valores Únicos\n{unique}\n")

# Promedio
mean = df_country_deaths['cumulative_deaths'].mean()
print(f"Promedio\n{mean}\n")

# Cuartiles
# Mediana (50%)
median_new_deaths = df_country_deaths['cumulative_deaths'].median()

# Cuartiles (25%, 75%)
q1_new_deaths = df_country_deaths['cumulative_deaths'].quantile(0.25)
q3_new_deaths = df_country_deaths['cumulative_deaths'].quantile(0.75)

print("\nMediana para 'cumulative_deaths':", median_new_deaths)
print("\nCuartil 25% para 'cumulative_deaths':", q1_new_deaths)
print("\nCuartil 75% para 'cumulative_deaths':", q3_new_deaths)

In [None]:
# Filtra los valores mayores que cero
filtered_data = df_country_deaths['cumulative_deaths'][df_country_deaths['cumulative_deaths'] > 0]

# Crea el histograma con la transformación logarítmica
sns.histplot(filtered_data, bins=20, kde=True, edgecolor='black', alpha=0.7)
plt.xlabel('Logaritmo de la población')
plt.ylabel('Frecuencia')
plt.title('Histograma de muertes acumuladas')
plt.show()

In [None]:
plt.boxplot(df_country_deaths['cumulative_deaths'])

plt.title('Diagrama de Caja de cumulative_deaths en df_country_deaths')
plt.ylabel('Número de nuevas muertes')
plt.show()

### Análisis de Población en los Municipios

In [None]:
# Estadísticas Descriptivas
describe = df_municipality['population'].describe()
print(f"Estadísticas descriptivas\n{describe}\n")

# Estadísticas de Conteo
count = df_municipality['population'].count()
print(f"Estadísticas de Conteo\n{count}\n")

# Valores únicos
unique = df_municipality['population'].nunique()
print(f"Valores Únicos\n{unique}\n")

# Promedio
mean = df_municipality['population'].mean()
print(f"Promedio\n{mean}\n")

# Cuartiles
# Mediana (50%)
median_new_deaths = df_municipality['population'].median()

# Cuartiles (25%, 75%)
q1_new_deaths = df_municipality['population'].quantile(0.25)
q3_new_deaths = df_municipality['population'].quantile(0.75)

print("\nMediana para 'cumulative_deaths':", median_new_deaths)
print("\nCuartil 25% para 'cumulative_deaths':", q1_new_deaths)
print("\nCuartil 75% para 'cumulative_deaths':", q3_new_deaths)

In [None]:
filtered_data = df_municipality['population'][df_municipality['population'] > 0]

# Crea el histograma con la transformación logarítmica
sns.histplot(filtered_data, bins=20, kde=True, edgecolor='black', alpha=0.7)
plt.xlabel('Logaritmo de la población')
plt.ylabel('Frecuencia')
plt.title('Histograma de población')
plt.show()

- El diagrama posee un sesgo, por lo cuál, se hará una transformación logarítmica

In [None]:
# Filtra los valores mayores que cero
filtered_data = df_municipality['population'][df_municipality['population'] > 0]

# Crea el histograma con la transformación logarítmica
sns.histplot(np.log(filtered_data), bins=20, kde=True, edgecolor='black', alpha=0.7)
plt.xlabel('Logaritmo de la población')
plt.ylabel('Frecuencia')
plt.title('Histograma de población')
plt.show()

In [None]:
plt.boxplot(df_municipality['population'])

plt.title('Diagrama de Caja de cumulative_deaths en df_country_deaths')
plt.ylabel('Número de nuevas muertes')
plt.show()

### Diagramas de Barras para Variables cualitativas

## EDA Multivariable

### Gráficas de Dispersión

In [None]:
plt.scatter(df_country_deaths['new_deaths'], df_country_deaths['date'])
plt.xlabel('Nuevas Muertes')
plt.ylabel('Fecha')
plt.title('Dispersión: Nuevas Muertes vs. Fecha')
plt.show()

In [None]:
plt.scatter(df_country_deaths['cumulative_deaths'], df_country_deaths['date'])
plt.xlabel('Muertes Acumuladas')
plt.ylabel('Fecha')
plt.title('Dispersión: Muertes Acumuladas vs. Fecha')
plt.show()

In [None]:
plt.figure(figsize=(15, 50))
plt.scatter(df_municipality['population'], df_municipality['name'])
plt.xlabel('Población')
plt.ylabel('Municipio')
plt.title('Dispersión: Municipio vs Población')
plt.show()

In [None]:
plt.scatter(df_department_population['TotalPopulation'], df_department_population['DepartmentName'])
plt.xlabel('Población')
plt.ylabel('Departamento')
plt.title('Dispersión: Departamento vs Población')
plt.show()

### Gráficas de Barras

### Mapas de Calor