<a href="https://colab.research.google.com/github/JotaBlanco/TheValley/blob/main/Arboles/Clase_01_Arboles/01_%C3%81rboles_Decisi%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01 INTRO: Análisis Univariante 
Explicación de cómo realizar análisis univariantes.

Notebook por [Javier Blanco Cordero](https://www.linkedin.com/in/javier-blanco-cordero-71373656/).

### Enlaces de interés
*   [Slides de presentación](https://docs.google.com/presentation/d/1WNWGnLUyiGqwFf92V3V_szu3QTD_0EQY5GZjhFgen5Q/edit?usp=sharing)
*   [Enlace a este notebook en Colab](https://colab.research.google.com/github/JotaBlanco/TheValley/blob/main/Notebooks/03-analisis-univariante-causal-multivariante/03_A___Analisis_univariante.ipynb)




## 0101 Qué es un análisis univariante?
El análisis univariante consiste en estudiar la distribución y características de una sola variable.

Veamos con ejemplos:

## 0102 Import
Importamos todas las librerías necesarias para este análisis ([¿No sabes lo que es una librería de Python?](https://www.quora.com/What-is-a-Python-library-and-what-can-I-use-it-for)): pandas, numpy, seaborn, matplotlib.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## 0103 Carga el dataset Fifa19
Para probar a hacer análisis univariantes utilizaremos el dataframe con datos ya limpios del fifa 19 (esta es la url de la versión raw de mi archivo ya limpio 'https://raw.githubusercontent.com/JotaBlanco/TheValley/main/Data/Fifa19_Clean.csv'). Importa este dataset en un dataframe llamado **df_fifa19**.

Utiliza solo las columnas cols = ['Name', 'Age', 'Nationality', 'Overall', 'Potential', 'Club', 'Work Rate', 
        'Height_cm', 'Weight_kg', 'Value_€', 'Wage_€', 
        'Release Clause_€', 'Preferred Foot', 'Position', 'SprintSpeed'] y en este orden.

In [None]:
cols = ['Name', 'Age', 'Nationality', 'Overall', 'Potential', 'Club', 
        'Work Rate', 'Height_cm', 'Weight_kg', 'Value_€', 'Wage_€', 
        'Release Clause_€', 'Preferred Foot', 'Position', 'SprintSpeed']

# Url archivo raw
url = 'https://raw.githubusercontent.com/JotaBlanco/TheValley/main/Data/Fifa19_Clean.csv'

# Importa csv
df_fifa19 = pd.read_csv(url, usecols=cols)

# Visualización primeras filas
df_fifa19.head()

# 02 Variable numérica 
Veamos cómo estudiar una variable numérica (continua).

### 0201 Método .describe()
El método .[describe()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) devuelve automáticamente sólo las variables numéricas, con los estadísticos básicos:


*   Count
*   Mean
*   std
*   min
*   25%
*   50%
*   75%
*   max



In [None]:
df_fifa19.describe()

## 0202 Visualización de la distribución
Los estadísticos básicos del .describe() nos dan información importante, pero suele ser más intuitivo, y muy útil, visualizar el histograma.

Recordad, podemos generar un histograma con plt.[hist()](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.hist.html).

In [None]:
sns.set()

In [None]:
# Distribución de variable 'Overall'
plt.hist(df_fifa19['Overall'])
plt.show()

In [None]:
# Ver distribución de todas las columnas
for columna in df_fifa19.describe().columns:
  plt.hist(df_fifa19[columna])
  plt.title(columna)
  plt.show()

# 03 Variable categórica
Vamos cómo estudiar la distribución de una variable categórica.

## 0301 Método value_counts()
El método .[value_counts()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html) devuelve la frecuencia de cada categoría.

In [None]:
df_fifa19['Nationality'].value_counts()

In [None]:
df_fifa19['Preferred Foot'].value_counts()

## 0302 Visualización de la frecuencia
Recordemos, el método de visualización recomendado son las barras:


*   plt.[bar()](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.bar.html)
*   plt.[barh()](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.barh.html)

Normalmente los gráficos de tarta no se recomiendan salvo en circunstancias excepcionales. Por ejemplo, cuando las categorías que se muestran son parte de un todo, el número de categorías es pequeño y saber si ciertas categorías suman más de un 50% es importante. La función plt.[pie()](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.pie.html) genera un gráfico de tarta.


In [None]:
# Guardamos el resultado del value_counts (que está en formato serie)
serie_nacionalidad = df_fifa19['Nationality'].value_counts()[:15]
serie_pie = df_fifa19['Preferred Foot'].value_counts()

In [None]:
# Barras verticales
plt.bar(x = serie_pie.index, height = serie_pie.values)
plt.show()

In [None]:
# Gráfico de tarta
plt.pie(serie_pie.values, labels=serie_pie.index)
plt.show()

In [None]:
# Barras horizontales
plt.barh(y = serie_nacionalidad.index, width = serie_nacionalidad.values)
plt.gca().invert_yaxis()

## 0303 EJERCICIO
Visualiza la variable categórica Posición (para las 10 posiciones más habituales) en barras horizontales.

In [None]:
serie_posicion = df_fifa19['Position'].value_counts()[:10]
serie_posicion

In [None]:
# Visualización
plt.barh(y = serie_posicion.index, 
         width = serie_posicion.values)
plt.gca().invert_yaxis()
plt.title('Posición')
plt.show()