

# Introducción

Los primeros pasos a seguir para su análisis de datos en Python son:

1. **Obtención de los datos**. Pueden ser datos almacenados en ficheros locales, consultas a BBDD, u obtenidos mediante conexión a repositorios web.

2. **Cargar los datos**.  Los datos pueden tener distintos formatos, aunque un formato muy común son los ficheros CSV (**C**omma **S**eparated **V**alues). Otros formatos comunes son JSON, XLS, HTML, XML, etc.

3. ** Análisis exploratorio**. El análisis exploratorio de datos, AED (o EDA en inglés), es un enfoque sistemático de análisis preliminar de datos. Está basado en técnicas gráficas y descriptivas cuyo objetivo es ganar intuición sobre los datos, detectar valores atípicos, extraer variables importantes y, en general, descubrir estructuras subyacentes en los datos. Permite, además, organizar los datos, detectar fallos y evaluar la existencia de datos ausentes.

4. **Limpiar los datos**. Es importante comprobar los datos de los que disponemos y eliminar columnas vacías, unificar términos, intentar imputar datos no disponibles si corresponde, etc.



**Tipos de variables**

Hay muchas tipologías de variables, pero esencialmente las podemos dividir en:

- Cuantitativas, si su naturaleza es numérica expresada en magnitudes, razones, escalas, etc.

- Cualitativas, si expresan algún tipo de propiedad no cuantificable. En algunos análisis es importante dilucidar si las categorías están ordenadas o no.

**Estudio descriptivo**

Un conjunto de técnicas numéricas y gráficas que permitan una explicación del comportamiento básico de las variables involucradas en nuestro estudio.

**¿Qué debemos construir?**

Los métodos de EDA se pueden clasificar como:
- Expresiones numéricas tales como coeficientes, frecuencias,…
- Gráficos informativos tales como histogramas, nubes de puntos, gráficas de sectores,…

Y así mismo, como:
- Univariantes: se describen las características de una variable por vez.
- Bivariantes: se investiga la influencia de la variable independiente, por vez, con respecto a la variable dependiente.
- Multivariante: se investiga la influencia de dos o más variables independientes (a veces junto a una o más variables asociadas -covariables-), sobre una o más variables dependientes

**Importante**

Todas nuestras acciones deben ser adecuadas al tipo de variable considerada.





## Carga de datos
1. Activar unidad de Drive
*   Seleccionar el icono de carpeta en la barra de la izquerda
*   Seleccionar Activar unidad de Drive


2. Ejecutar celda
*   Hacer clic en el enlace
*   Copiar la clave y pegarla en la celda ejecutada.


  

In [0]:
from google.colab import drive
drive.mount('/content/drive')




## Pandas

1. `DataFrames` y  `Series`
2. Operaciones básicas

`pandas` es una librería que proporciona herramientas analíticas y estructuras de datos con alto rendimiento y facilidad de uso. En particular, la clase `DataFrame` es útil para representación y manipulación de datos heterogéneos tabulados (hojas de cálculo, tabla SQL, etc.)   

#### Características

- Ofrece estructuras de datos flexibles y expresivas diseñadas para trabajar con datos tabulados y etiquetados. Éstas son: `Series` y  `DataFrame`.
- Posee herramientas robustas de lectura/escritura de datos desde ficheros con formatos conocidos como: CSV, XLS, SQL y HDF5, entre otros.
- Permite filtrar, agregar o eliminar datos.
- Combina las características de las matrices de alto rendimiento de `numpy` con capacidades de manipulación de datos tabulados.

Para importar los módulos de la librería `pandas`, por convención se utiliza:

In [0]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

%matplotlib inline



Las columnas de un DataFrame son básicamente numpy array, pero no lo veremos en esta sesión. 




### Lectura
La librería `pandas` nos permite leer/escribir datos en una amplia variedad de formatos, como: CSV, JSON, HDF5, HTML, etc.

Métodos como `read_csv()`, `read_table()` permiten cargar ficheros de datos en formato tabular de forma local o remota.

Por ejemplo:

In [0]:
df = pd.read_csv('/content/drive/My Drive/Colab Notebooks/UADE/Files/housing_price.csv',squeeze=True, delimiter=',')

In [0]:
df




### Operaciones con columnas



Se pueden consultar el nombre de las variables usando el atributo columns:

In [0]:
df.columns # attribute type



Se pueden extraer columnas de un DataFrame con la etiqueta de la columna (sólo si es un identificador Python válido) usando notación tipo diccionario o como atributo del objeto. En ambos casos se obtiene un objeto tipo Series.

In [0]:
df["SalePrice"]  # dictionary type

In [0]:
df.SalePrice # object attr



#### Indexado y filtrado

pandas soporta varios tipos de indexado:

* Basado en etiquetas, usando `.loc`
* Basado en posiciones, usando `.iloc`
* Mixto, usando `.ix`



Para acceder a las filas, se puede usar el atributo ix o la función iloc.

In [0]:
print(df.iloc[0])

In [0]:
df.loc[df.SalePrice>100000]



<div class="alert alert-info">**Nota**: Consultar http://pandas.pydata.org/pandas-docs/version/0.19.1/indexing.html#different-choices-for-indexing para ver más información sobre los métodos loc, iloc, ix.</div>



#### Filtrado

Una de las tareas principales cuando se analizan datasets es seleccionar filas usando operadores simples.

In [0]:
df.SalePrice > df.SalePrice.mean()

In [0]:
df2 = df[df.SalePrice > df.SalePrice.mean()]
df2



Se pueden usar operadores Booleanos para combinar filtros.

In [0]:
df2 = df[(df.SalePrice < df.SalePrice.mean()) & (df.SalePrice >= 100000)]
df2

---

# Análisis Univariante: Técnicas gráficas y numéricas



## Variables cuantitativas



### Tecnicas númericas

1. **Tendencia central de los datos**

    - ***Medias*** o promedios: se basan en operaciones algebraicas y corresponden a la idea de valor medio o centro de gravedad. La más usual es la media aritmética, pero ésta puede ser inadecuada en diferentes situaciones reales. Otros tipos de medias son la media geométrica y la media armónica.
        - Se puede usar para eliminar los extremos
        - Ver si el outlier o valor atípico afecta mucho al valor de la media.

    Los promedios como hemos visto son bastante sensibles a los datos atípicos, para reducir este efecto podemos recurrir a medidas basadas en el lugar que ocupa el valor dentro de la muestra.
    - ***Mediana***: Es el valor central de la muestra una vez ordenada.

    - ***Moda***: Es el valor que más se repite. Proporciona muy poca información y su uso es circunstancial.

2. **Medidas de dispersión**
    Una medida de posición por sí sola es poco informativa si no va asociada a una medida de dispersión.
    El comportamiento de dos muestras puede ser muy diferente aunque su media sea igual. ¿Qué muestra está mejor representada por la media? Una muestra poco dispersa estará mejor representada por una medida de posición que una muy dispersa.

    - ***Rango***: rango=max(x)−min(x)
    - ***Varianza y desviación típica***
        - La varianza está en unidad cuadrática con respecto a la media, mientras que la desviación típica en la misma unidad.
        - Es invariante frente a cambios de origen pero no de escala.
        - Los outliers o valores atípicos pueden tener un efecto excesivo en la varianza o desviación típica.
    - ***Coeficiente de variación***
        - Es el cociente de la desviación típica y la media. Es un coeficiente adimensional que se suele utilizar para comparar muestras con escalas diferentes.
    - ***Rango intercuartílico***
        - Diferencia entre el tercer y primer cuartil, IQR(x)=P75−P25.

3. **Medidas de forma (de distribución)**
    Establecemos coeficientes que nos permitan apreciar algunos aspectos geométricos de la muestra, tales como la ***asimetría*** con respecto a una medida de posición o la concentración alrededor de ésta (***curtosis***).

    - Coeficiente de asimetría de Fisher

Hay diferentes resúmenes ya construidos en Python que podemos utilizar si deseamos.



### Técnicas gráficas

- Histograma
- Box Plot
- Diagrama de líneas. (Para por ejemplo series temporales)



## Variables cualitativas



El tratamiento de las variables cualitativas es diferente al de las cuantitativas ya que al ser sus valores etiquetas no podemos operar algebraicamente con ellas.



##### Tratamiento de variables cualitativas

Esencialmente se trata del manejo de ***tablas de frecuencia***. Consiste en un conteo de la frecuencia con la que aparece cada valor diferente de la muestra.

##### Discretización

Las variables cuantitativas se pueden transformar en cualitativas mediante un proceso de discretización. Obviamente, se pierde información en este proceso.




### Técnicas gráficas

- Diagrama de barras
- Gráficos de puntos
- Gráficos de sectores



Técnicas de EDA sugeridas dependiendo el tipo de dato.

<img src="https://miro.medium.com/max/1400/1*tLY3OnPuFvACp2fGripuCQ.png" width="500">



Técnicas de EDA sugeridas dependiendo del objetivo.

<img src="https://miro.medium.com/max/1400/1*EzGUjbYfp4I3oF0DTd97LA.png" width="500">



## Análisis inicial 

In [0]:
df.shape

In [0]:
df.head()

In [0]:
df.tail()

In [0]:
df.sample(5)



La función describe() da varios valores de estadística del dataframe y excluye los valores NaN.

In [0]:
df.describe()

In [0]:
df["SalePrice"]

In [0]:
df.dtypes



## Variables cuantitativas



**Vamos a ver cómo se distribuye la variable SalePrice.**

El precio de las casas es la variable que queremos estudiar. Para ello, usaremos un histograma.

In [0]:
plt.figure(figsize=(8, 5))
sns.distplot(df['SalePrice'], bins=100)

In [0]:
print(df.SalePrice.mean())
print(df.SalePrice.median())
print(df.SalePrice.mode())



Se puede observar que los precios son asimétricos a la derecha.


y hay algunos outliers en los precios altos.

Nota: Podríamos resolverlo con la función log

In [0]:
sns.distplot(np.log1p(df.SalePrice), color='g', bins=100, hist_kws={'alpha': 0.4});



**Vamos a ver la distribución de las otras variables cuantitativas mediante histogramas.**

Para ello vamos a coger sólo las variables numéricas, y las vamos a representar con histogramas.

Nota: en las variables numéricas pueden haber tanto cuantitativas como cualitativas.

In [0]:
list(set(df.dtypes.tolist()))

In [0]:
df_numerical = df.select_dtypes(include = ['float64', 'int64'])
df_numerical.head()

In [0]:
df_numerical.hist(figsize=(15, 20), bins=60, xlabelsize=10, ylabelsize=10);



¿Cuáles creeis que pueden estar correlacionadas con SalePrice?



## Variables cualitativas



Empezamos listando todos los tipos de datos de nuestro dataset, para luego coger sólo las variables no numéricas.

Nota: pueden haber variables numéricas cualitativas, por ejemplo: una variable que representa tener jardín o no:
- 0: no tiene jardin
- 1: tiene jardin pequeño
- 2: tiene jardin grande

**En este ejemplo miraremos variables cualitativas no numéricas. También habría que ver las numéricas, pero para simplificar el ejemplo vemos solo las no numéricas.**

In [0]:
list(set(df.dtypes.tolist()))

In [0]:
df_categorical = df.select_dtypes(include = ['O'])
df_categorical.head()

In [0]:
df_categorical.columns



A estas alturas, exploramos las variables una por una. Para las variables categoricas, usaremos una tabla de frecuencias:

- Para entender la distribución de cada categoría
- También se usa para ver los valores *missing* y los outliers.

También podemos ver el porcentaje de valores en cada categoría. 

También usaremos un *bar chart* para la visualización



Creamos la tabla de frecuencias (crosstabs). La función de Pandas acepta uno o más objetos tipo array como indices o columnas, y después construye un nuevo DataFrame of variable counts basado en los arrays proporcionados.



Vamos a estudiar por ejemplo la variable siguiente

In [0]:
df_categorical["SaleCondition"].unique()

In [0]:
my_table = pd.crosstab(index = df_categorical["SaleCondition"],  # Make a crosstab
                              columns="count")      # Name the count column

my_table.plot.bar()



Como la función crosstab produce Dataframes, las operaciones sobre dataframes funcionan sobre crosstabs.

In [0]:
print(my_table)

print ("\n", my_table.sum(), "\n")   # Sum the counts



Podemos sacar de la tabla de frecuencias la proporción de datos que pertenece a cada categoría.

In [0]:
my_table/my_table.sum()



# Relación entre variables



Variables Continuas
- Correlación
- QQplot
- PCA

Variables Continuas y Categóricas

Variables Categóricas
- Visualización por categoría 




## Relación entre Variables Continuas



### Correlación



Vamos a comenzar viendo qué variables cuantitativas están correlacionadas con el precio, para luego ver en un *scatter plot* la relación entre la variable de precio, y la otra variable.

In [0]:
df_numerical.corr()

In [0]:
df_numerical_corr = df_numerical.corr()['SalePrice']
df_numerical_most_corr = df_numerical_corr[abs(df_numerical_corr) > 0.5].sort_values(ascending=False)
df_numerical_most_corr

In [0]:
df_numerical_most_corr.index



**NOTA**: recordamos que no todas las representadas (numéricas) serán cuantitativas, habrán cualitativas también.

In [0]:
for idx in df_numerical_most_corr.index:
    df.plot(kind='scatter',
          x=idx,
          y='SalePrice')



Ahora tenemos una lista de variables correlacionadas, pero la lista es incompleta pues sabemos que la correlación viene afectada por los outliers. 

No siempre el coeficiente de correlación sirve para ver la relación entre variables, por lo que representarlos puede llevarnos a ver nuevas pistas. 



### QQplot

Nos permite ver si un data set puede haber venido de alguna distribución teórica como la normal o la exponencial.

Por ejemplo, si realizamos un análisis estadístico que asume que nuestra variable dependiente está distribuida de forma normal, podemos usar un QQPlot Normal para comprobarlo. Es sólo una comprobación visual.

QQPlot es un *scatterplot* creado al representar dos sets de cuantiles, uno frente al otro. Si los dos provienen de la misma distribución, deberíamos ver a los puntos formar una linea casi recta.

Los cuantiles teóricos se colocan en el eje `x`, y en el eje `y` nuestros datos. 

In [0]:
data=df["SalePrice"].sort_values()
#norm=np.random.chisquare(2,len(data))
norm=np.random.normal(0,2,len(data))
norm.sort()
plt.figure(figsize=(12,8),facecolor='1.0') 

plt.plot(norm,data,"o")

#generate a trend line as in http://widu.tumblr.com/post/43624347354/matplotlib-trendline
z = np.polyfit(norm,data, 1)
p = np.poly1d(z)
plt.plot(norm,p(norm),"k--", linewidth=2)
plt.title("Normal Q-Q plot", size=28)
plt.xlabel("Theoretical quantiles", size=24)
plt.ylabel("Expreimental quantiles", size=24)
plt.tick_params(labelsize=16)

plt.show()



###  PCA



Se utiliza para reducir la dimensionalidad de un dataset, mejorando así la eficiencia computacional, mientras se retiene la información importante.

http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html



Representando un mapa de calor de la correlación entre distintas variables que no sea SalePrice, podemos descubrir relaciones entre otras variables.



## Relación entre Variables Continuas y Categóricas



Podemos usar *Boxplots*

La caja central del *boxplot* representa el 50% central de las observaciones.

Los puntos que estén fuera de la línea podrían ser outliers.

<img src=https://miro.medium.com/max/1400/0*JLbei_yx1QA7UhaW.png width="500">

In [0]:
plt.figure(figsize = (10, 5))
ax = sns.boxplot(x='SaleType', y='SalePrice', data=df)
plt.setp(ax.artists, alpha=.5, linewidth=2, edgecolor="k")
plt.xticks(rotation=45)

In [0]:
plt.figure(figsize = (10, 5))
ax = sns.violinplot(x='SaleType', y='SalePrice',data=df)
plt.setp(ax.artists, alpha=.5, linewidth=2, edgecolor="k")
plt.xticks(rotation=45)




## Relación entre Variables Categóricas



*Two-way frequency tables* o tablas de contingencia, son tablas de frecuencia de dos dimensiones donde cada dimensión es una variable distinta. Puede dar información sobre la relación de dos variables. Para crearla, le pasamos dos variables a crosstab en vez de una. Las filas representan las categorías de una variable, y las columnas las categorías de la otra variable. 

*Stacked Column Chart*: este método es una forma más visual de una *two-way table*. 



two-way table

In [0]:
grouped = df_categorical.groupby(['SaleCondition','KitchenQual'])
grouped.size()

In [0]:
my_table2 = pd.crosstab(index=df["SaleCondition"], 
                          columns=df["KitchenQual"])

my_table2

In [0]:
my_table2.plot(kind="bar", 
                 figsize=(8,8),
                 stacked=True)



# Contraste de hipótesis





# Data Quality



## Manejo de datos ausentes



`pandas` toma a los valores `NaN` y `None` como valores ausentes. La función `pandas.isnull` se puede usar para determinar si existen valores ausentes en los datos.



¿Existen valores NaN en la columna price?
Descarta las filas con valores NaN en la columna price.

In [0]:
df['SalePrice'].isnull().any()



En caso que quisiesemos llenar dichos valores con uno por defecto, por ejemplo con una cadena vacía, se haría de la siguiente forma:

In [0]:
df.fillna("")



Si hubiesen y los quisiesemos descartar, lo haríamos de la siguiente forma

In [0]:
df2 = df.dropna(subset=['SalePrice'])



## Outliers

Se pueden observar viendo la distribución de las variables individualmente con un *box plot*, mediante un *scatterplot* o un un diagrama de cajas.

Es importante considerar el efecto que pueden tener en los datos, pues cambian los resultados de tests estadísticos como la desviación estándar, la media, la mediana, y puede tener impacto en los resultados de los modelos estadísticos como regresión, etc.

¿Cómo los tratamos? La decisión dependerá del contexto. Por eso es importante entender los datos e identificar las causas de los outliers. 

- Si el outlier es por error de introducción o procesamiento de datos, podríamos considerar eliminarlos.
- Se pueden transformar asignándole pesos a las observaciones, o usar el logaritmo natural para reducir la variación que produce el outlier en los datos.
- Igual que con los nulos, se pueden usar métodos para reemplazar dichos valores extremos con la mediana, media o moda. 

In [0]:
df.plot(kind='hist',
          x='LotFrontage',
          y='SalePrice')

In [0]:
df.plot(kind='scatter',
          x='LotFrontage',
          y='SalePrice')

df.plot(kind='scatter',
          x='LotArea',
          y='SalePrice')

df.plot(kind='scatter',
          x='GarageArea',
          y='SalePrice')

df.plot(kind='scatter',
          x='GrLivArea',
          y='SalePrice')



### Test de Tukey para valores atípicos

Una forma muy sencilla de eliminar outliers de forma analítica es aplicando el test de Tukey. Éste dice que se considera valor atípico a todo aquel que **esté fuera** del siguiente rango:

- Valor atípico: $ Q_1 - 1.5\cdot IQR > x > Q_3 + 1.5 \cdot IQR$
- Valor atípico extremo: $Q_1 - 3\cdot IQR > x >Q_3 + 3\cdot IQR$

Si la distribución es normal, entonces queda de la siguiente forma:

- Valor atípico: $ -\sigma > x > \sigma $
- Valor atípico extremo: $ -2\cdot\sigma > x > 2\cdot\sigma $

In [0]:
def tukey_outliers(df,column,extreme=False):
    q1, q3 = np.percentile(df[column],[25,75])
    iqr = q3 - q1
    constant = 1.5 if not extreme else 3
    return df[~((df[column]>(q3+constant*iqr)) | (df[column]<(q1-constant*iqr)))]


In [0]:
df2 = tukey_outliers(df,'GrLivArea',extreme=True)
df3 = tukey_outliers(df2,'SalePrice',extreme=True)
df.plot(kind='scatter',
          x='GrLivArea',
          y='SalePrice')
df3.plot(kind='scatter',
          x='GrLivArea',
          y='SalePrice')

#Referencias adicionales


*   [Exploratory Data Analysis (EDA)](https://towardsdatascience.com/exploratory-data-analysis-eda-techniques-for-kaggle-competition-beginners-be4237c3c3a9)
*   [Exploratory data analysis in Python](https://towardsdatascience.com/exploratory-data-analysis-in-python-c9a77dfa39ce)
*   [Exploratory Data Analysis: How to find insights in the Data.](https://medium.com/@karupakulasampath/exploratory-data-analysis-how-to-find-insights-in-the-data-10c929179684)

