In [3]:
#sudo dnf install graphviz -y (fedora)

#!sudo dnf install graphviz

In [4]:
!pip install graphviz



In [5]:
from graphviz import Digraph

resources_path = 'doc_src/'

In [6]:

dot = Digraph(comment='Análisis de Datos en Big Data')

dot.node('A', '1. Exploración (EDA)\n- Limpieza y resumen\n- Visualización\n- Outliers')
dot.node('B', '2. Descriptivo\n- KPIs\n- Agrupaciones\n- Evolución temporal')
dot.node('C', '3. Diagnóstico\n- Correlaciones\n- Factores influyentes\n- Multivariable')
dot.node('D', '4. Predictivo\n- Modelado supervisado\n- Predicción de precios\n- Interpretación')

dot.edges(['AB', 'BC', 'CD'])
dot.render(f'{resources_path}/data_analysis_flow', format='png', cleanup=True)  # Guarda como PNG



'doc_src/data_analysis_flow.png'

In [7]:
dot = Digraph('DataAnalysis', format='png')

# Estilo general
dot.attr(rankdir='TB', size='8,5')  # top-bottom
dot.attr('node', shape='box', style='filled', fontname='Helvetica', fontsize='12', color='lightgray', fillcolor='#EAF2F8')

# Nodo 1: EDA
dot.node('EDA', '''1. Exploración (EDA)
- Limpieza y resumen
- Visualización básica
- Detección de outliers''', fillcolor='#AED6F1')

# Nodo 2: Descriptivo
dot.node('DES', '''2. Análisis Descriptivo
- KPIs por zona
- Promedios y medianas
- Evolución temporal''', fillcolor='#A3E4D7')

# Nodo 3: Diagnóstico
dot.node('DIA', '''3. Análisis Diagnóstico
- Correlaciones
- Análisis multivariable
- Identificación de causas''', fillcolor='#F9E79F')

# Nodo 4: Predictivo
dot.node('PRE', '''4. Análisis Predictivo
- Modelos supervisados
- Predicción de precios
- Interpretación de resultados''', fillcolor='#F5B7B1')

# Flechas
dot.edge('EDA', 'DES')
dot.edge('DES', 'DIA')
dot.edge('DIA', 'PRE')

# Exportar
dot.render(f'{resources_path}/data_analysis_flow1', cleanup=True)

'doc_src/data_analysis_flow1.png'

In [8]:
from graphviz import Digraph

dot = Digraph('DataAnalysis', format='png')
dot.attr(rankdir='TB', size='8,10')
dot.attr('node', shape='box', style='filled', fontname='Helvetica', fontsize='11')

# Colores
BASE = '#D5F5E3'
EDA = '#AED6F1'
DES = '#A3E4D7'
DIA = '#F9E79F'
PRE = '#F5B7B1'
TBD = '#FADBD8'

# Fases base
dot.node('EDA', '''1. Exploración (EDA)
- Inspección general
- Limpieza inicial
- Análisis univariado
- Análisis bivariado
- Visualización''', fillcolor=EDA)

dot.node('DES', '''2. Descriptivo
- KPIs por región
- Tendencias por año
- Agrupaciones por tipo''', fillcolor=DES)

dot.node('DIA', '''3. Diagnóstico
- Correlaciones
- Comparación entre grupos
- Identificación de causas''', fillcolor=DIA)

dot.node('PRE', '''4. Predictivo (MODELADO)
- Modelos ML (GLM, XGBoost)
- Validación cruzada
- Interpretación (SHAP, coef)''', fillcolor=PRE)

# Conexión principal
dot.edge('EDA', 'DES')
dot.edge('DES', 'DIA')
dot.edge('DIA', 'PRE')

# Tareas opcionales (TBD)
dot.node('MAP', '''[TBD] Mapa geográfico de precios''', fillcolor=TBD)
dot.node('SEG', '''[TBD] Segmentación de mercado''', fillcolor=TBD)
dot.node('TIME', '''[TBD] Modelado de series temporales''', fillcolor=TBD)
dot.node('OUT', '''[TBD] Detección de anomalías
- Errores vs. predicciones
- Umbrales dinámicos
- Posibles señales de crisis''', fillcolor=TBD)
dot.edge('TIME', 'OUT', style='dashed')


# Conexiones opcionales
dot.edge('EDA', 'MAP', style='dashed')
dot.edge('DIA', 'SEG', style='dashed')
dot.edge('PRE', 'TIME', style='dashed')

# Exportar
dot.render(f'{resources_path}/data_analysis_flow_complete', cleanup=True)


'doc_src/data_analysis_flow_complete.png'

In [9]:
dot = Digraph('DataPipeline', format='png')
dot.attr(rankdir='TB', size='7,8')
dot.attr('node', shape='box', style='filled', fontname='Helvetica', fontsize='11')

# Colores
DATA = '#D6EAF8'
PREP = '#AED6F1'
ANALYSIS = '#A3E4D7'
MODEL = '#F5B7B1'
INTERP = '#FADBD8'
OPTIONAL = '#F9E79F'

# Nodos principales
dot.node('RAW', 'Datos brutos (Kaggle)', fillcolor=DATA)
dot.node('PREPROC', 'Preprocesamiento / EDA\n(Limpieza + Visualización)', fillcolor=PREP)
dot.node('ANALYSIS', 'Análisis descriptivo y diagnóstico\n(KPIs, Correlaciones, Comparaciones)', fillcolor=ANALYSIS)
dot.node('MODELING', 'Modelado predictivo\n(GLM, XGBoost, AutoML)', fillcolor=MODEL)
dot.node('INTERP', 'Interpretación de resultados\n(SHAP, coeficientes)', fillcolor=INTERP)

# Opcional: modelado de series temporales + anomalías
dot.node('TIME', 'Modelado temporal [TBD]', fillcolor=OPTIONAL)
dot.node('ANOM', 'Detección de anomalías [TBD]', fillcolor=OPTIONAL)

# Conexiones
dot.edge('RAW', 'PREPROC')
dot.edge('PREPROC', 'ANALYSIS')
dot.edge('ANALYSIS', 'MODELING')
dot.edge('MODELING', 'INTERP')
dot.edge('INTERP', 'TIME', style='dashed')
dot.edge('TIME', 'ANOM', style='dashed')

# Exportar
dot.render(f'{resources_path}/data_pipeline_overview', cleanup=True)


'doc_src/data_pipeline_overview.png'