<a href="https://colab.research.google.com/github/Giankarl0/Data-Science/blob/integration/Introducci%C3%B3n_a_plotly.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**¿Que es Plotly?**

Plotly es una librería de visualización interactiva de datos en Python (y otros lenguajes como R, Julia y JavaScript) que permite crear gráficos interactivos, visualizaciones en 3D y dashboards con facilidad.

**Diferencias**

La principal diferencia de Ploty sobre las demas es su capacidad de crear grafivos interactivos de manera sencilla. Ademas una de las ventajas de esta libreria es su soporte para graficos en 3D, esto permite crear visualizaciones complejas como mapas de color, graficas de dispersión y datos geograficos de manera interactiva


**Instalación**

La instalación solo es necesaria siempre y cuando no se utilicen notebooks que ya contengan dicha libreria, en caso de no ser el caso se instala por el siguiente comando:

In [None]:
pip install plotly

Y para importar la biblioteca solo es necesario importarlo con "`plotly.express`" y darle una abreviación como "`px`"para simplificar su uso



In [None]:
import plotly.express as px

Para poder hacer graficas es necesario importar las librerias extras con el fin de que permita la lectura correcta de los datos a subir, en este caso se importa `pandas` y se abrevia como `pd`

In [None]:
import pandas as pd

Este código tiene como objetivo crear un archivo CSV con algunos datos simulados y guardarlos en Google Drive usando **pandas** en Google Colab. A continuación se explica cada paso del código:

1. **Definición de los datos:**
   - Se crea un diccionario llamado `data` que contiene 4 claves: `id`, `name`, `age`, y `gender`.
     - **'id'**: Es una secuencia de números del 1 al 20 (usando `range(1, 21)`).
     - **'name'**: Es una lista de 20 nombres (por ejemplo, 'Alice', 'Bob', etc.).
     - **'age'**: Es una lista de 20 edades correspondientes a cada nombre (por ejemplo, 25, 30, etc.).
     - **'gender'**: Es una lista de 20 valores de género ('F' para femenino y 'M' para masculino), alternados entre ambos géneros.

2. **Creación del DataFrame:**
   - Se crea un DataFrame de **pandas** utilizando el diccionario `data`. El DataFrame es una estructura tabular donde cada clave del diccionario se convierte en una columna y los valores asociados a cada clave se convierten en las filas de esas columnas.

3. **Definir la ruta del archivo CSV:**
   - La variable `file_path` define la ruta en Google Drive donde se guardará el archivo CSV. En este caso, se guarda en `'/content/drive/MyDrive/prueba.csv'`.

4. **Guardar el DataFrame como archivo CSV:**
   - Utilizando el método `to_csv` de **pandas**, el DataFrame `df` se guarda en un archivo CSV en la ruta especificada.
     - El argumento `index=False` asegura que no se guarde el índice del DataFrame como una columna extra en el archivo CSV.
     - El argumento `sep=";"` especifica que se usará un punto y coma como delimitador en lugar de la coma predeterminada.

5. **Retorno de la ruta del archivo:**
   - Finalmente, el código devuelve la ruta donde se guardó el archivo CSV en Google Drive, permitiendo al usuario verificar su ubicación.

El archivo CSV resultante contendrá las siguientes columnas: `id`, `name`, `age`, y `gender`, con los valores proporcionados en el diccionario `data`.

### Resultado
El archivo CSV se guarda correctamente en la carpeta indicada dentro de Google Drive. Puedes acceder a él desde tu cuenta de Google Drive en la ruta especificada.


In [None]:
import pandas as pd
data= {
    'id': range(1, 21),
    'name': [
        'Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Hank', 'Ivy', 'Jack',
        'Kathy', 'Leo', 'Mona', 'Nate', 'Olivia', 'Paul', 'Quinn', 'Rose', 'Steve', 'Tina'
    ],
    'age': [25, 30, 35, 40, 28, 32, 27, 45, 29, 34, 26, 31, 36, 33, 24, 39, 42, 38, 37, 41],
    'gender': [
        'F', 'M', 'M', 'M', 'F', 'M', 'F', 'M', 'F', 'M',
        'F', 'M', 'F', 'M', 'F', 'M', 'M', 'F', 'M', 'F'
    ]
}

df = pd.DataFrame(data)

file_path = '/content/drive/MyDrive/prueba.csv'
df.to_csv(file_path, index=False, sep=";")

file_path

'/content/drive/MyDrive/prueba.csv'

### 📊 Visualización de Datos con Plotly 🚀

Este código utiliza la librería **Plotly** y **pandas** para generar un gráfico de barras que muestra la distribución de la edad por género a partir de los datos previamente cargados en un archivo CSV. Aquí te explico cada paso del código con estilo y emojis para hacerlo más atractivo. 😄

---

1. **Importación de librerías 🔧:**
   - Se importa **Plotly Express** como `px`, que es una librería poderosa para crear gráficos interactivos en Python.
   - También se importa **pandas** como `pd`, que se utiliza para manejar y analizar datos en formato tabular (DataFrames).

   🎯 Plotly es ideal para crear gráficos visualmente atractivos e interactivos, mientras que pandas se encarga de manejar los datos de manera eficiente.

---

2. **Leer el archivo CSV 🗂️:**
   - Se utiliza `pd.read_csv()` para cargar el archivo CSV que contiene los datos en un DataFrame. La variable `file_path` contiene la ruta del archivo en **Google Drive**.
   - `sep=";"` indica que el delimitador de los valores en el archivo CSV es un punto y coma.

   🎯 Esto permite que pandas lea y estructure los datos de manera adecuada para su análisis y visualización.

---

3. **Generación del gráfico de barras 📊:**
   - **`px.bar()`** se utiliza para crear un gráfico de barras.
     - `x='gender'`: Establece el eje X como el género de las personas (F, M).
     - `y='age'`: Establece el eje Y como la edad de las personas.
     - `title="Edad promedio por Género"`: Título del gráfico que indica lo que se está representando.
     - `labels={'gender': 'Género', 'age': 'Edad'}`: Se personalizan las etiquetas de los ejes para mayor claridad.
     - `color='gender'`: Asigna un color diferente para cada género en el gráfico.
     - `barmode='group'`: Organiza las barras de manera agrupada para una mejor comparación entre géneros.

   🎯 El gráfico de barras muestra cómo se distribuyen las edades entre los géneros **masculino** y **femenino**, y facilita la comparación visual.

---

4. **Mostrar el gráfico interactivo 🖼️:**
   - **`fig.show()`** renderiza el gráfico interactivo y lo muestra en el entorno de Google Colab.

   🎯 Este paso genera una visualización interactiva, lo que significa que puedes explorar el gráfico, hacer zoom y ver los valores de las barras al pasar el cursor sobre ellas.

---

### Resultado 🎉:
El gráfico de barras generado visualiza de manera clara la distribución de la edad entre los géneros **masculino** y **femenino**. Los colores ayudan a diferenciar las categorías y el gráfico interactivo permite explorar los datos con facilidad.

---

🔑 **Recuerda**: Puedes personalizar aún más el gráfico con diferentes opciones de **Plotly**, como cambiar el tipo de gráfico, agregar etiquetas de texto, etc. ¡Esto te permite crear visualizaciones impresionantes para cualquier tipo de análisis! 🎨

---


In [None]:
import plotly.express as px
import pandas as pd

file_path = '/content/drive/MyDrive/prueba.csv'
df = pd.read_csv(file_path, sep=";")

fig = px.bar(df, x='gender', y='age',
             title="Edad promedio por Género",
             labels={'gender': 'Género', 'age': 'Edad'},
             color='gender',
             barmode='group')

fig.show()

### 📊 Visualización de Datos con un Gráfico de Dispersión de Plotly 🚀

Este código genera un **gráfico de dispersión (scatter plot)** utilizando la librería **Plotly Express** para mostrar la relación entre la edad y el nombre de las personas, diferenciadas por género y tamaño según la edad. Aquí te explico cada parte del código, con estilo y emojis para hacerlo más visual y atractivo. 😄

---

1. **Importación de librerías 🔧:**
   - Se importa **Plotly Express** como `px`, que es una librería para crear gráficos interactivos en Python.
   - **pandas** como `pd` también se importa para manejar los datos de manera eficiente.

   🎯 **Plotly** es perfecta para crear gráficos dinámicos e interactivos, mientras que **pandas** facilita la manipulación de los datos en tablas.

---

2. **Generación del gráfico de dispersión 📈:**
   - **`px.scatter()`** se utiliza para crear un gráfico de dispersión.
     - `x='name'`: Establece el eje X como el nombre de las personas.
     - `y='age'`: Establece el eje Y como la edad de las personas.
     - `title="Edad por Nombre"`: Título del gráfico, que indica que estamos visualizando la relación entre la edad y el nombre.
     - `labels={'name': 'Nombre', 'age': 'Edad'}`: Personaliza las etiquetas de los ejes X y Y para mayor claridad.
     - `color='gender'`: Los puntos del gráfico se colorean según el género, con colores diferentes para **masculino** (M) y **femenino** (F).
     - `size='age'`: El tamaño de los puntos en el gráfico varía según la edad, lo que permite ver de manera visual qué tan grande es la diferencia entre las edades.
     - `hover_name='name'`: Al pasar el cursor sobre un punto del gráfico, se muestra el nombre de la persona.

   🎯 El gráfico de dispersión muestra cómo se distribuyen las edades de las personas con base en su nombre, y el tamaño de los puntos permite ver de manera intuitiva la variabilidad de las edades.

---

3. **Mostrar el gráfico interactivo 🖼️:**
   - **`fig.show()`** renderiza el gráfico interactivo y lo muestra en el entorno de **Google Colab**.

   🎯 Este paso hace que el gráfico sea interactivo, por lo que puedes hacer zoom, desplazarte y explorar los datos con facilidad.

---

### Resultado 🎉:
El gráfico de dispersión generado visualiza la relación entre **nombre** y **edad**, con puntos de diferentes colores para cada género y tamaños que varían según la edad. Esta visualización facilita la identificación de patrones y permite explorar de manera interactiva los datos.

---

🔑 **Recuerda**: Este tipo de gráficos son muy útiles cuando se quiere ver la distribución de datos en dos dimensiones (en este caso, **nombre** y **edad**) y se pueden personalizar con otros parámetros como la forma o el color de los puntos.

---


In [None]:
fig = px.scatter(df, x='name', y='age',
                 title="Edad por Nombre",
                 labels={'name': 'Nombre', 'age': 'Edad'},
                 color='gender',
                 size='age',
                 hover_name='name')

fig.show()

### 📊 Visualización de Datos con un Gráfico de Caja (Box Plot) de Plotly 📦

Este código genera un **gráfico de caja (box plot)** usando la librería **Plotly Express** para mostrar la distribución de las edades de las personas según su género. A continuación, explico cada parte del código de manera clara y visual. 😄

---

1. **Importación de librerías 🔧:**
   - Se importa **Plotly Express** como `px` para la creación de gráficos interactivos.
   - **pandas** como `pd` es utilizado para manejar los datos de forma eficiente.

   🎯 **Plotly Express** es ideal para crear gráficos dinámicos e interactivos, mientras que **pandas** facilita el manejo de grandes cantidades de datos en tablas.

---

2. **Generación del gráfico de caja (Box Plot) 📦:**
   - **`px.box()`** se utiliza para crear el gráfico de caja (box plot).
     - `x='gender'`: Establece el eje X como el género de las personas, dividiendo las categorías en **Masculino** (M) y **Femenino** (F).
     - `y='age'`: Establece el eje Y como la edad de las personas, que se representa mediante una distribución.
     - `title="Distribución de Edad por Género"`: El título del gráfico describe el propósito de la visualización: mostrar la distribución de las edades según el género.
     - `labels={'gender': 'Género', 'age': 'Edad'}`: Personaliza las etiquetas de los ejes para una mejor comprensión del gráfico.

   🎯 El gráfico de caja es perfecto para mostrar la **distribución** de los datos, permitiendo visualizar aspectos como la **mediana**, los **cuartiles** y los **valores atípicos** (outliers) para cada categoría (en este caso, para cada género).

---

3. **Mostrar el gráfico interactivo 🖼️:**
   - **`fig.show()`** renderiza y muestra el gráfico en el entorno de **Google Colab**, haciendo que el gráfico sea interactivo.

   🎯 Este paso permite al usuario explorar el gráfico de manera dinámica, haciendo zoom y moviéndose por el gráfico para obtener más detalles sobre los valores.

---

### ¿Qué muestra un gráfico de caja (Box Plot)? 🔍

- **Caja (box)**: Representa el rango intercuartílico (IQR), donde se encuentra el 50% de los datos, entre el primer cuartil (Q1) y el tercer cuartil (Q3).
- **Líneas dentro de la caja**: La línea mediana que indica el valor central de los datos.
- **Bigotes (whiskers)**: Líneas que se extienden desde la caja, mostrando los rangos de los datos que no son considerados atípicos.
- **Puntos fuera de los bigotes**: Los **outliers** o valores atípicos, que son puntos de datos significativamente diferentes del resto.

---

### Resultado 🎉:
El gráfico de caja proporciona una visión clara de cómo se distribuyen las edades en cada género, permitiendo identificar rápidamente la **mediana**, los **cuartiles** y los **valores atípicos**.

---

🔑 **Recuerda**: Los gráficos de caja son útiles para comparar la **distribución** de los datos entre diferentes categorías y para detectar **valores atípicos** de manera visual.

---


In [None]:
fig = px.box(df, x='gender', y='age',
             title="Distribución de Edad por Género",
             labels={'gender': 'Género', 'age': 'Edad'})

fig.show()

### 📊 Visualización de Datos con un Gráfico de Línea (Line Plot) de Plotly 📉

En este ejemplo, se muestra cómo crear un **gráfico de línea (line plot)** utilizando **Plotly Express** para visualizar la relación entre las edades de las personas y su género. A continuación, explico cada parte del código para entender cómo se crea este tipo de gráfico.

---

1. **Importación de librerías 🔧:**
   - **Plotly Express** se importa como `px`, que es la librería principal para crear gráficos interactivos.
   - **pandas** como `pd` para manejar y manipular los datos.

   🎯 **Plotly Express** es ideal para crear gráficos visuales interactivos, mientras que **pandas** facilita la manipulación de datos en tablas.

---

2. **Creación del gráfico de línea (Line Plot) 📉:**
   - **`px.line()`** se utiliza para crear el gráfico de línea.
     - `x='id'`: Establece el eje X como el identificador de cada persona (de 1 a 20), representando el orden de los datos.
     - `y='age'`: Establece el eje Y como la edad de las personas.
     - `title="Evolución de la Edad por ID"`: El título del gráfico, que indica que se está mostrando la evolución de las edades en función del ID de las personas.
     - `labels={'id': 'ID', 'age': 'Edad'}`: Personaliza las etiquetas de los ejes para hacer el gráfico más fácil de interpretar.

   🎯 El gráfico de línea es útil para mostrar la **evolución** o la **tendencia** de los datos a lo largo del tiempo o en función de una secuencia numérica.

---

3. **Mostrar el gráfico interactivo 🖼️:**
   - **`fig.show()`** renderiza y muestra el gráfico en el entorno de **Google Colab**, permitiendo la interacción.

   🎯 Con este paso, el gráfico se hace interactivo, lo que permite al usuario hacer zoom y desplazarse por el gráfico para analizar mejor los datos.

---

### ¿Qué muestra un gráfico de línea (Line Plot)? 🔍

- **Líneas**: Muestran cómo varían los valores a lo largo del eje X (en este caso, el ID).
- **Puntos**: Cada punto en la línea representa un valor específico en el eje Y (en este caso, la edad de una persona).

🎯 El gráfico de línea es útil para **visualizar tendencias** o **evoluciones** de los datos a lo largo de una secuencia, especialmente cuando hay una variable continua.

---

### Resultado 🎉:
El gráfico de línea proporciona una **visualización clara** de cómo cambian las edades de las personas según su identificador (ID). A medida que los puntos se conectan por una línea, se puede ver cómo varía la edad en cada ID de manera continua.

---

🔑 **Recuerda**: El gráfico de línea es ideal para mostrar cómo **evolucionan** los datos a lo largo del tiempo o a través de una secuencia ordenada.

---


In [None]:
import pandas as pd
import plotly.express as px

file_path = '/content/drive/MyDrive/prueba.csv'
df = pd.read_csv(file_path, sep=";")


fig = px.line(df, x='id', y='age',
              title="Evolución de la Edad por ID",
              labels={'id': 'ID', 'age': 'Edad'})

fig.show()
