# Modulo 3 Actividad 3

Intención del aprendizaje esperado:

**3. Presentar información de un set de datos utilizando librería Matplotlib para graficar la información.**

Ejercicios Planteados

**Caso:**


*Se tiene un fichero csv con información relativa a datos de un estudio realizado en la zona de Boston, donde se analizan diferentes variables, como son el índice de crimen, el número de habitaciones, el porcentaje de habitantes de clase baja y el valor medio de las casas de esa zona*

Pasos:

- Importar librerías a utilizar para el caso en cuestión (panda, matplotlib)

- Leer csv correspondiente

- Renombrar campos




In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

casas = pd.read_csv('casasboston.csv')
df_casas_boston = pd.DataFrame(casas)

print(df_casas_boston)


In [None]:
df_casas_boston.rename(columns={'TOWN' : 'Localidad', 'CRIM' : 'Indice Criminalidad', 'RM' : 'Prom. Habitaciones', 'CHAS' : 'Costanera Río', 'MEDV' : 'Valor Medio Vivienda',
                                'AGE' : 'Edad', 'PTRATIO' : 'Colegios por Localidad', 'NOX' : 'Concentracion Óxidos Nítricos'}, inplace=True)
df_casas_boston


- Confeccionar los siguientes gráficos.  Para cada gráfico debe generar la correcta interpretación para lectura de cualquier persona, esto es, no use términos técnicos

     **Histograma:** Un histograma es útil para ver la distribución de una variable, es decir, nos permite ver los valores más comunes. 
     Para el caso que se presenta se desea ver la distribución de la cantidad media de habitaciones en el estudio realizado.



In [None]:

n, bins, patches = plt.hist(df_casas_boston['Prom. Habitaciones'], bins=6, edgecolor='black')


ancho = bins[1] - bins[0]


for i in range(len(n)):
    plt.text(bins[i] + ancho/2, n[i] + 1, str(int(n[i])), ha='center', va='bottom')

plt.title('Distribución Numero de Viviendas vs Cantidad Habitaciones Promedio')
plt.xlabel('Cantidad de Habitaciones Promedio')
plt.ylabel('Cantidad de Viviendas')


plt.show()


Respecto a la información que refleja el gráfico se puede observar que existe una distribución de tipo normal sobre la cantidad de habitaciones por vivienda

 **Dispersión:** sirve para representar la relación entre dos variables. Para nuestro caso se desea ver la relación entre índice de crimen y el valor mediano de las casas. En otras palabras, ¿el índice de crimen afecta el valor medio de las casas?

In [None]:
indice_criminalidad = df_casas_boston['Indice Criminalidad']
valor_medio_vivienda = df_casas_boston['Valor Medio Vivienda']


plt.figure(figsize=(10, 6))
plt.scatter(indice_criminalidad, valor_medio_vivienda, c='red', alpha=0.5)


plt.title('Valor Medio Vivienda vs Indice de Criminalidad')
plt.xlabel('Indice Criminalidad')
plt.ylabel('Valor Medio Vivienda')
plt.grid(True)

plt.show()


No podemos asegurar con el gráfico que existe una relación directa entre precio e indice de criminalidad ya que la distribución de los datos nos permite observar que existen casas de alta tasación que se ubican en sectores con indice de criminalidad más alto que otras de menor cuantía, sin embargo si podemos observar una tendecia respecto a la disminución de precios de viviendas a partir de cierto límite en el indice de criminalidad, como por ejemplo que a partir de viviendas con Indice de Criminalidad mayores a 20, la tasación de ellas es menor a 20.000 por lo que podríamos decir que en determinadas condiciones empieza a existir una influencia del índice de criminalidad sobre el valor de las viviendas.

**Barras:** Un gráfico de barras es útil para comparar una variable entre distintos grupos o categorías. Por ejemplo, si quisiéramos observar el valor medio de cada ciudad. Para nuestro caso se desea agrupar por ciudad y toma la media del valor mediano. Gráfica las 10 primeras ciudades.

In [None]:
df_valor_medio_ciudad = df_casas_boston.groupby('Localidad')['Valor Medio Vivienda'].mean().reset_index()

df_valor_medio_ciudad_ordenado = df_valor_medio_ciudad.sort_values(by='Valor Medio Vivienda', ascending=False)
df_valor_medio_ciudad_ordenado_10 = df_valor_medio_ciudad_ordenado.head(10)
df_valor_medio_ciudad_ordenado_10




In [None]:
plt.figure(figsize=(13, 6))
barras = plt.bar(df_valor_medio_ciudad_ordenado_10['Localidad'], df_valor_medio_ciudad_ordenado_10['Valor Medio Vivienda'], color='blue')
plt.xticks(fontsize=7)
plt.ylim(0, 60)
plt.xlabel('Localidad')
plt.ylabel('Valor Medio Vivienda')
plt.title('Top 10 Localidad mayor precio promedio viviendas')

for barra in barras:
    yval = barra.get_height()
    plt.text(barra.get_x() + barra.get_width()/2, yval + 0.5, round(yval, 2), ha='center', va='bottom', fontsize=7)


plt.tight_layout()
plt.show()  



**Cajas:** Los diagramas de cajas son útiles para representar grupos de datos y compararlos entre ellos. Otro uso importante es que nos permiten identificar de forma sencilla si una variable tiene muchos outliers (valores atípicos) esto es, elementos que se alejan de los valores frecuentes de dicha variable. Para nuestro caso, se desea ver los valores atípicos de índice de crimen en los diferentes cuantiles de valor mediano.

In [None]:

q1 = np.percentile(df_casas_boston['Indice Criminalidad'], 25)
q2 = np.percentile(df_casas_boston['Indice Criminalidad'], 50)
q3 = np.percentile(df_casas_boston['Indice Criminalidad'], 75)


plt.figure(figsize=(10, 6))
plt.boxplot(df_casas_boston['Indice Criminalidad'])

plt.annotate(f'Q1 = {q1:.2f}', xy=(0.94, q1), xytext=(0.6, 1), arrowprops=dict(facecolor='red', shrink=0.05), fontsize=8, bbox=dict(facecolor='red', alpha=0.5))
plt.annotate(f'Q2 = {q2:.2f}', xy=(0.95, q2), xytext=(0.6, 7), arrowprops=dict(facecolor='blue', shrink=0.05), fontsize=8, bbox=dict(facecolor='blue', alpha=0.5))
plt.annotate(f'Q3 = {q3:.2f}', xy=(0.95, q3), xytext=(0.6, 13), arrowprops=dict(facecolor='green', shrink=0.05), fontsize=8, bbox=dict(facecolor='green', alpha=0.5))



plt.ylabel('Indice Criminalidad')
plt.title('Indice de Criminalidad Boston - Gráfico de Cajas')
plt.xticks([])

# Mostrar el gráfico
plt.show()


Analizando el gráfico podemos inferir lo siguiente.  Debido al tamaño de la caja podemos inferir que la mayor parte de las casas se concentra en un bajo rango de indice de criminalidad respecto al universo total de la muestra.  Que a partir del tercer cuartil los datos empiezan a mostrar una distribución en rango más amplio pero sigue siendo bajo respecto al total de la muestra.  A partir del limite superior se registran los eventos que escapan de manera evidente respecto al comportamiento reflejado en la muestra.  Existe una alta concentración de estos eventos 'outliers' hasta cerca del 30 en la escala de indice de criminalidad y otros 8 a 9 eventos que escapan de manera exagerada sobre la mayoría de la muestra, sin embargo en comparación con la mayoría de la muestra, este último rango de datos está distribuido de manera mas dispersa con relación al porcentaje de la muestra lo que se refleja en la diferencia de longitud entre la caja (incluyendo su bigote superior) y la longitud de los datos restantes.  Se puede asegurar también que no hay eventos que escapen de manera excesiva del la mayoría en el rango inferior de la caja.