## Exploración del dataset y Estadística

En esta clase vamos a realizar una exploración más específica sobre las columnas del Dataset del Arbolado de la Ciudad de Buenos Aires coon el que venimos trabajando y observar los valores estadísticos que estuvimos revisando en la clase.


In [None]:
#importamos las librerias que utilizaremos

import pandas as pd
import matplotlib.pyplot as plt  
import seaborn as sns

In [None]:
data = pd.read_csv("https://cdn.buenosaires.gob.ar/datosabiertos/datasets/arbolado-publico-lineal/arbolado-publico-lineal-2017-2018.csv")
data.head()

In [None]:
# Vemos los tipos de datos

data.dtypes

## Variables numéricas

Para observar la distribución de las **variables numéricas** podemos utilizar el método *describe* que muestra de cada columna:

* **_count_**: Cantidad de datos, esto es muy útil para saber cuáles columnas tienen datos nulos y cuantos. 
* **_mean_**: La media aritmetica de los datos, o promedio, se calcula como la suma de todos los datos dividido la cantidad de datos sumados. 
* **_std_**: Desviación standard, es una medida de que tan dispersos están los datos o que tanta variedad hay en los mismos.
* **_min_**: El valor mínimo encontrado en los datos.
* **_25%_**: Llamado primer cuartil, representa el número tal que el 25% de los datos es menor a el.
* **_50%_**: Llamado segundo cuartil o mediana, representa el número tal que el 50% de los datos es menor a el. 
* **_75%_**: Llamado tercer cuartil, representa el número tal que el 75% de los datos es menor a el. 
* **_max_**: El valor máximo encontrado en los datos. 
 
Es importante tener en cuenta que *comuna* está interpretada como una variable numérica dado que son número pero en realidad cada número representa una categoría y no existe una relación numérica entre ellas por lo tanto en realiad es una variable categórica y no tiene sentido realizar un análisis estadístico (solo la moda).


In [None]:
data.describe()


#### Media Mediana y Moda

* Mediana (_median_): La mediana es el valor que separa la proporción de datos a la mitad, es decir, el 50% de los datos son mayores a este valor y el otro 50% es menor.
* 1er Cuartil (_Q1_): Es el valor que separa a los datos tal que, 25% de los datos son menores a este valor, y el 75% superioe son superiores.
* 3er Cuartil (_Q1_): Es el valor que separa a los datos tal que, 75% de los datos son menores a este valor, y el 25% restante son superiores.
* Rango intercuartil (_IRQ_): Es el rango entre el primer cuartil y el tercer cuartil, dentro de este rango se tienen el 50% de los datos. 
- Media: el promedio de una variable numérica

- Mediana: ordenando los valores que toma una variable de menor a mayor, el valor del registro diviendo la cantidad de datos en 2

- Moda: el valor que más se repite

- Quartiles: ordenando los valores que toma una variable de menor a mayor dividiendo la cantidad de datos en 4

- Valores atípicos

Ver [video](https://www.youtube.com/watch?v=R2U3apzVB9E&list=PLsJNGBlgMnSzKQIOVOQSgFAtu0XXZ8QZl&index=36)

#### Columna *altura_arbol*
Vamos a ver estos valores en la columna *altura_arbol* y realizar 2 gráficos: un [hisograma](https://seaborn.pydata.org/generated/seaborn.histplot.html) para ver la distribución de la variables y un [boxplot](https://seaborn.pydata.org/generated/seaborn.boxplot.html?highlight=boxplot#seaborn.boxplot) que también sirven para observar la distribución y también nos presentan información agregada, como lo es la media, los cuartiles y los bigotes o límites mínimos y máximos en un simple gráfico.

In [None]:
# media

data["altura_arbol"].mean()

In [None]:
# mediana

data["altura_arbol"].median()

In [None]:
# moda

data["altura_arbol"].mode()

In [None]:
# desvío estandar

data["altura_arbol"].std()

In [None]:
#sns.histplot(data=data, x="altura_arbol")

#sns.displot(data=data, x="altura_arbol")

sns.distplot(data["altura_arbol"])


In [None]:
sns.boxplot(x=data["altura_arbol"])

#### Columna *diametro_altura_pecho*


In [None]:
data["diametro_altura_pecho"].min()

In [None]:
data["diametro_altura_pecho"].max()

In [None]:
data["diametro_altura_pecho"].mean()

In [None]:
data["diametro_altura_pecho"].median()

In [None]:
data["diametro_altura_pecho"].std()

In [None]:
#sns.histplot(data=data, x="diametro_altura_pecho", kde=True)

#sns.displot(data=data, x="diametro_altura_pecho")

sns.distplot(data["diametro_altura_pecho"], kde=False)

In [None]:
# Vamos a hacer uno por cada comuna y cambiamos los colores, vamos a agrandar el gráfico para que se vea mejor.

plt.figure(figsize=(10, 5))
sns.boxplot(y=data["diametro_altura_pecho"], x=data["comuna"], palette=["m", "g"])


### Relación entre variables 
 
Es importante analizar qué tan relacionadas están las variables con las que se está trabajando, esto es, analizar si se tiene información repetida o variables que representan practicamente lo mismo. 

Para esto existe un índice llamado correlación. 
 
El índice de correlación es un valor entre -1 y 1 con las siguiente caracteristicas: 
* Cuando la correlación entre dos variables está cerca de 1 significa que las variables están relacionadas de forma lineal y positiva. Esto significa que cuando una variable crece o decrece la otra también lo hace. 
* Cuando la correlación está cerca de -1 significa que las variables están relacionadas de forma lineal y negativa. Esto significa que cuando una variable crece o decrece, la otra hace lo opuesto.
* Si la correlación es cercana a 0 significa que no hay relación lineal entre el comportamiento de ambas variables.  
* La correlación solo mide relaciones lineales, puede que las variables tengan algún otro tipo de relación, por ejemplo si $Y = X^2$ la correlación dara cercana a 0, sin embargo, $Y$ esta claramente relacionada a $X$.
* Cuando la correlación entre dos variables es cercana a 1 o a -1 se dice que estan altamente correlacionadas. 
 
Es importante resaltar, que una alta correlación (sea positiva o negativa) no implica causalidad, es decir, que dos variables estén altamente correlacionadas no significa que el movimiento de una se debió al movimiento de la otra. 

 
Vamos a utilizar el método *corr()* que permite observar la correlación entre variables numéricas. La salida es lo que llamamos matriz de correlaciones. Esta es una matriz triangular, es decir, los valores sobre la diagonal son iguales a los encontrados bajo la diagonal de la matriz.
Además utilizaremos un gráfico [heatmap](https://seaborn.pydata.org/generated/seaborn.heatmap.html?highlight=heatmap#seaborn.heatmap) para visualizarlo mejor.

In [None]:
data.corr()

# Es importante notar que "long", "lat" y "comuna" son variables numéricas pero en este caso no aporta mucho el método corr()
#ya que los número de las comunas no significan su valor numérico sino son en realidad nominales

In [None]:
sns.heatmap(data.corr())

#sns.heatmap(data.corr(), annot=True)

## Variables categóricas

#### Columna *nombre_cientifico*

Ahora analizaremos la variable "nombre_cientifico" que ya hemos visto que es un tipo de dato "object", vamos a ver cuánta cantidad de registros hay de cada valor (de cada tipo de árbol) y de esta manera podemos conocer la *moda*

In [None]:
data["nombre_cientifico"].value_counts()

In [None]:
# Si queremos realizar un gráfico

sns.countplot(data["nombre_cientifico"])

Este gráfico se ve mal por la gran cantidad de registros que tiene, vamos a hacer un recorte de nuestro DataFrame seleccionando los 20 tipos de árboles que más cantidad hay.

In [None]:
# Vamos a ver el top 20 de arboles 

data["nombre_cientifico"].value_counts()[:21]

In [None]:
# Podemos realizar un gráfico de countplot solo con estos tipos de arboles

# Primero debemos generar un nuevo dataset filtrando estos datos y luego realizar el gráfico 

data_grafico = data["nombre_cientifico"].value_counts()[:21]

data_grafico.index

In [None]:
sns.barplot(
    x = data_grafico, # El parámetro x representa lo que queremos gráficar en este eje, la cantidad de repeticiones de la especie 
    y = data_grafico.index  # El parámetro y representa lo que queremos gráficar en este eje, cada una de las especies. 
)

### Desafío 6: Buscar Datasets

El objetivo es ponerse en grupos y buscar dataset que sean de su interés para poder realizar un análisis. Puede ser de cualquier tema que les interese que puedan contar con Datos. Les recordamos el Documento de Google con sitios donde pueden buscar datasets, es un Documento colaborativo entre todas las comisiones de Datos asì que pueden agregar: [Dataset](https://docs.google.com/document/d/1EnimkrV_a9cu-ZrrcydZnigquQeGSpUsnqu0BA3fUFE/edit?usp=sharing!)