<a href="https://colab.research.google.com/github/Giankarl0/Data-Science/blob/integration/Ejemplo_de_uso_Plotly.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

El archivo que estara cargado en el repositorio llamado california_housing_test contiene datos del conjunto de California Housing, con las siguientes columnas principales:

longitude: Longitud geográfica.

latitude: Latitud geográfica.

housing_median_age: Edad mediana de las casas.

total_rooms: Número total de habitaciones.

total_bedrooms: Número total de dormitorios.

population: Población en la zona.

households: Número de hogares en la zona.

median_income: Ingreso mediano en la zona.

median_house_value: Valor mediano de las casas.





**A continuación, crearé ejemplos de gráficos usando esta información:**

Gráfico de dispersión (scatter plot).

Gráfico de barras (bar plot).

Gráfico de líneas (line plot).

Gráfico de cajas (box plot).

Iniciaremos con un ejemplo de importacion de librerias y archivos que usaremos

In [14]:
#Importamos la librerias que usaremos en este ejemplo
import pandas as pd         # Para manejar y analizar datos en formato tabular
import plotly.express as px # Para crear gráficos interactivos de forma sencilla


#Damos permisos a Google Colab para acceder a nuestro archivo que debe estar previamente en Google Drive
from google.colab import drive
drive.mount('/content/drive/')

#Asignamos las variables para el llamado del archivo desde Drive
file_path = "/content/sample_data/california_housing_test.csv"

#Asignamos una variable df al archivo evitando usar los titulos de las columnas de los datos
df=pd.read_csv(file_path, sep=",",header=0)

#Podemos ver
print(df.head())

#Con Shape podemos ver cual es la cantidad de informacion de la que disponemos
print(df.shape)

# Leer el archivo CSV en un DataFrame de pandas
data = pd.read_csv(file_path) # Aquí cargamos los datos desde un archivo CSV. El DataFrame `data` contendrá las columnas del archivo.

# Mostrar una vista previa del DataFrame
# Muestra las primeras filas del DataFrame.
data.head()



Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).
   longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0    -122.05     37.37                27.0       3885.0           661.0   
1    -118.30     34.26                43.0       1510.0           310.0   
2    -117.81     33.78                27.0       3589.0           507.0   
3    -118.36     33.82                28.0         67.0            15.0   
4    -119.67     36.33                19.0       1241.0           244.0   

   population  households  median_income  median_house_value  
0      1537.0       606.0         6.6085            344700.0  
1       809.0       277.0         3.5990            176500.0  
2      1484.0       495.0         5.7934            270500.0  
3        49.0        11.0         6.1359            330000.0  
4       850.0       237.0         2.9375             81700.0  
(3000, 9)


Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0


1. Gráfico de Dispersión (Scatter Plot)

Objetivo: Relacionar el ingreso medio (median_income) con el valor medio de las viviendas (median_house_value), diferenciando los puntos por tamaño y color.

In [13]:
# Crear un gráfico de dispersión usando Plotly Express
scatter_fig = px.scatter(
    data,                                  # El DataFrame con los datos
    x='median_income',                     # Columna para el eje X
    y='median_house_value',                # Columna para el eje Y
    color='housing_median_age',            # Diferenciar los puntos por color basado en esta columna
    size='population',                     # Cambiar el tamaño de los puntos según esta columna
    title='Relación entre Ingreso Medio y Valor Medio de Viviendas', # Título del gráfico
    labels={                               # Etiquetas personalizadas para los ejes
        'median_income': 'Ingreso Medio en miles de dolares',
        'median_house_value': 'Valor Medio de la Vivienda',
        'housing_median_age': 'Edad Media en años de la Vivienda',
        'population': 'Población'
    },
    hover_data=['longitude', 'latitude']   # Mostrar coordenadas al pasar el mouse sobre un punto
)

# Mostrar el gráfico
scatter_fig.show()


2. Gráfico de Barras (Bar Plot)
Objetivo: Mostrar la población total agrupada por la edad media de las viviendas.

In [15]:
# Agrupar datos por edad media de viviendas y sumar la población total
data_grouped = data.groupby('housing_median_age')['population'].sum().reset_index()
# Aquí usamos `groupby` para agrupar por la columna `housing_median_age` y sumamos las poblaciones.

# Crear un gráfico de barras usando los datos agrupados
bar_fig = px.bar(
    data_grouped,                   # El DataFrame con los datos agrupados
    x='housing_median_age',         # Columna para el eje X
    y='population',                 # Columna para el eje Y
    title='Población Total por Edad Media de Viviendas',  # Título del gráfico
    labels={                        # Etiquetas personalizadas
        'housing_median_age': 'Edad Media de Viviendas',
        'population': 'Población Total'
    },
    color_discrete_sequence=['#636EFA']  # Color personalizado para las barras
)

# Mostrar el gráfico
bar_fig.show()


3. Gráfico de Líneas (Line Plot)

Objetivo: Visualizar la tendencia del valor medio de las viviendas según la edad media de las viviendas.

In [16]:
# Agrupar datos por edad media de viviendas y calcular el promedio del valor de las viviendas
data_line = data.groupby('housing_median_age')['median_house_value'].mean().reset_index()
# Esto genera un DataFrame con `housing_median_age` y el promedio de `median_house_value`.

# Crear un gráfico de líneas usando los datos agrupados
line_fig = px.line(
    data_line,                      # El DataFrame con los datos agrupados
    x='housing_median_age',         # Columna para el eje X
    y='median_house_value',         # Columna para el eje Y
    title='Tendencia del Valor Medio de Viviendas por Edad',  # Título del gráfico
    labels={                        # Etiquetas personalizadas
        'housing_median_age': 'Edad Media de Viviendas',
        'median_house_value': 'Valor Medio de Viviendas'
    }
)

# Mostrar el gráfico
line_fig.show()


4. Gráfico de Cajas (Box Plot)

Objetivo: Visualizar la distribución del valor medio de las viviendas (median_house_value) para diferentes edades (housing_median_age).


In [17]:
# Crear un gráfico de cajas para analizar la distribución
box_fig = px.box(
    data,                          # El DataFrame original
    x='housing_median_age',        # Columna para el eje X (agrupamiento)
    y='median_house_value',        # Columna para el eje Y (valores distribuidos)
    title='Distribución del Valor de Viviendas por Edad Media',  # Título del gráfico
    labels={                       # Etiquetas personalizadas
        'housing_median_age': 'Edad Media de Viviendas',
        'median_house_value': 'Valor Medio de Viviendas'
    },
    color='housing_median_age',    # Diferenciar colores por edad media de las viviendas
    points='all'                   # Mostrar outliers en el gráfico
)

# Mostrar el gráfico
box_fig.show()
