<a href="https://www.inove.com.ar"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/PA%20Banner.png" width="1000" align="center"></a>


# Visualización y limpieza con Pandas

Visualización de los datos del dataset futbol\
v1.1

### **Objetivos: Asociados al preprocesamiento y visualización de los datos.**


*   Implemetar el código de descarga de un archivo csv.
*   Comprender la lectura de un archivo csv con Pandas.
*   Realizar la descripción estadística con Pandas.
*   Identificar y eliminar datos faltantes.
*   Explorar los datos y aplicar filtros.
*   Representar graficamente los datos para comparar los resultados de los partidos.

In [None]:
# Módulo os (sistema operativo)
import os
# Módulo platform, acceso a los datos identificativos de la plataforma subyacente.
import platform

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Recolectar datos
<img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline1.png" width="1000" align="middle">

## Código de descarga del archivo csv.

In [None]:
# Código que permite acceder al archivo partidos.csv, en caso no tenga acceso al archivo,
# El condicional propone identificar la plataforma, si es Windows va a buscar el archivo en github de Inove y lo descargará.
# En caso sea una plataforma diferente va a buscar el archivo en la ruta especificada.

if os.access('partidos.csv', os.F_OK) is False:
    if platform.system() == 'Windows':
        !curl https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/partidos.csv > partidos.csv
    else:
        !wget partidos.csv https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/partidos.csv

# Procesar datos
<img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline2.png" width="1000" align="middle">

## Lectura de un archivo csv con Pandas.

In [None]:
# Una vez descargado el archivo en Colab.
# Leerlo con Pandas y el método read_csv
# Una vez extraida toda la información se almacena en df
# A partir de df y el método describe(), mostrará la descripción estadistica básica del archivo que se guardará en des
df = pd.read_csv("partidos.csv")
df

## Descripción estadística con Pandas.

In [None]:
des = df.describe()
des

## Identificar y eliminar datos faltantes.

In [None]:
# Crear una fila nueva llamada Nan en el DataFrame  des,
# que indica la cantidad de datos tipo Nan que tiene cada columna.
# Para crear una nueva fila, se utilizará el operador loc, donde se indica el nombre
# de la nueva fila y con que valores se completará.
# La información será de los datos faltantes df.isna().sum()
des.loc['Nan'] = df.isna().sum()

In [None]:
# Crear una fila nueva llamada %Nan en el DataFrame des,
# Esta fila se completará con los porcentajes de Nan encontrados en cada columna.
des.loc['%Nan'] = (df.isna().mean())*100
des

In [None]:
# Muestra las 5 primeras filas del DataFrame df
df.head()

In [None]:
# Haciendo copia de df
df1 = df.copy()

In [None]:
# Cambiar los nombres de las columnas.
# Para ello, del DataFrame df accedemos a columns que contiene todos los nombres de las columnas.
# Las cuales se van a sobreescribir con los nuevos nombres.
df1.columns = ['fecha', 'equipo_local', 'equipo_visitante', 'resultado_local', 'resultado_visitante', 'torneo', 'ciudad', 'pais', 'neutral']
df1.head()

In [None]:
# ¿Cuántos datos quedaron para analizar?
# Con shape muestra las filas y columnas disponibles en df_clean
df1.shape

## Fin de la limpieza
No hay datos incompletos o mal ingresados en el dataset, está limpio! No es necesario ningún tipo de limpieza

In [None]:
print('Cantidad de datos en observacion:', df1.shape[0])

# Explorar datos
<img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline3.png" width="1000" align="middle">

In [None]:
# Muestra las 5 primeras filas del DataFrame df
df1.head()

*  Se puede observar que está el puntaje de cada partido, pero no el resultado final (wins, loses, draws) --> (ganó, perdió, empató).
*   Agregaremos una columna "results" con el resultado por partido.

## Explorar los datos y aplicar filtros


In [None]:
# Sa filtra el dataset para agregar una nueva columna llamada "resultados".
# Esta columna permite incrementar la información a partir de la ya disponible.
# Para ello, la columna resultados se completará con el retorno de una lambda.
# La lambda va a recorrer todo el DataFrame para verificar los condicionales establecidos:
# 'ganó' if x.resultado_local > x.resultado_visitante
#'perdió' if x.resultado_local < x.resultado_visitante
# else 'empató'
# El axis=1, es para que se aplica la lambda para cada fila del DataFrame.
df1['resultados'] = df1.apply(lambda x : 'ganó' if x.resultado_local > x.resultado_visitante else 'perdió' if x.resultado_local < x.resultado_visitante else 'empató', axis=1)
df1.head()

In [None]:
# En el registro de la totalidad de partidos, 
# ¿Cuántos partidos se ganaron, cuántos se pierden y cuántos se empataron?
# Para ello, se implementa el método value_counts() que se encarga de 
# contabilizar la frecuencia de los registros categoricos.
df1['resultados'].value_counts()

In [None]:
# En la columna equipo_local, se cuenta cuántos valores únicos se encuentran.
print("¿Cuántos países hay registrados?:", df1['equipo_local'].nunique())

## Representar graficamente los datos para comparar los resultados de los partidos.

In [None]:
# Partidos jugados por Argentina de local:
pais_analizar = 'Argentina'

# Se filtra df1 para extraer la información del equipo Argentino.
df_arg = df1[ df1['equipo_local'] == pais_analizar]

# countplot, similar a un grágico de barrar, permite comparar la frecuencia de los datos a estudiar,
# en este caso, la freciencia de los resultados de los partidos.
# sns, alias de Seaborn
# x='resultados', nombre de la columna que se desea observar la frecuencia
# data=df_arg, el DataFrame von la información.
# set_title(f"Histórico de {pais_analizar} permite asociar un título al gráfico
# plt.show() muestra el gráfico.
sns.countplot(x='resultados', data=df_arg).set_title(f"Histórico de {pais_analizar}")
plt.show()

# El countplot nos resuelve no tener que hacer lo siguiente:
#sns.barplot(x=df_arg['result'].value_counts().index, y=df_arg['result'].value_counts())
