# Sprint 3 - Manipulación de Datos I (Sesiones)
**Versión para estudiantes**

En este caso de estudio se busca prácticar los fundamentos de manipulación de datos con **Pandas**. Adicionalmente, se va a introducir los primeros criterios para un adecuado ordenamiento de proyectos de análisis de datos:

* Entendimiento del contexto
* Entendimiento de los datos
* Preparación de los datos
* Análisis de datos

## Entendimiento del contexto

El ranking de selecciones masculinas FIFA es un mecanismo que utiliza la entidad rectora del fútbol mundial para clasificar a los distintos equipos asociados. El mismo inició su medición en el año 1993, previo al mundial de Estados Unidos y se lo ha venido actualizando periódicamente en base a los resultados obtenidos en cada uno de los enfrentamientos oficiales y amistosos en las fechas designadas como FIFA (generalmente, esta actualización se la hace de manera mensual).

Actualmente este ranking sirve no solamente para informar a los aficionados respecto a cuáles son las mejores selecciones a nivel mundial, sino que es el principal criterio utilizado para definir los grupos en las citas mundialistas que se realizan cada 4 años.

Es importante que sepas además que este ranking ha tenido cambios importantes a nivel de su metodología de cálculo en Enero de 1999, Agosto 2006, Agosto 2011 y Agosto 2018.

Para un mayor detalle asociado a qué es y cómo se calcula este ranking, te sugiero revisar el siguiente link: https://en.wikipedia.org/wiki/FIFA_Men%27s_World_Ranking.

## Entendimiento de los datos

Lo primero que te sugiero hacer al iniciar cualquier proyecto de análisis de datos es importar las librerías y módulos con los que vas a trabajar. En este caso en concreto vamos cargar: 

* **Pandas** cuyo objetivo es proporcionar funciones y métodos para un eficiente manejo de tablas de datos (también conocidos como *dataframes* o *datasets*).
* **Numpy** cuyo objetivo es proporcionar funciones y métodos para análisis numérico.

Vale señalar que si el código anterior genera un error que indica que el módulo *pandas* no existe, deberás instalar por única vez esta librería ejecutando el siguiente comando en una celda previa:

```py
!pip install pandas
```

A continuación, conviene cargar los datos del archivo **fifa_rank.csv** con los que se vas a trabajar utilizando la función `read_csv`.

El dataset **fifa_rank** contiene cerca de 58 mil filas y 6 columnas detalladas a continuación:

* Country: Nombre del pais afiliado a la FIFA cuya selección de fútbol es puntuada.
* Confederation: Confederación a la que pertenece de acuerdo a la división de la FIFA.
* Rank_Date: Fecha de publicación del ranking FIFA entre marzo de 1993 y junio de 2018.
* Points_Old_Version: Puntos obtenidos conforme metodologías de cálculo anteriores al 2011 
* Ponts_New_Version: Puntos obtenidos conforme la metodología posterior a 2011. 
* rank: Posición en el ranking oficial de la FIFA dados los puntos calculados.

Una buena práctica al momento de cargar los datos es observar sus principales características a fin de establecer un plan de tratamiento acorde al dataset y su contexto. Esto resulta de vital importancia puesto que cada conjunto de datos es único y tiene sus propias particularidades. En concreto, interesa ver al menos lo siguiente:

* Estructura de los datos (número de filas y columnas)
* Nombres de las columnas
* Existencia de valores perdidos en cada columna
* Tipos de variables en cada columna
* Aspectos particulares de cada columna

Con este propósito, utiliza el método `info` para un primer vistazo al dataset.

A continuación algunos aspectos detectados:

* Las dimensiones de la tabla son correctas respecto a lo indicado en la descripción heca previamente.
* Los nombres de las columnas tienen mayusculas y esto puede ser problemático en las siguientes etapas del proyecto.
* Existen valores perdidos en las columnas confederation y Points_Old_Version.
* El tipo de variable de Points_New_Version es **object** (equivalente a *string*) lo cual no hace sentido considerando que deberías ver números.
* El tipo de variable de Rank_Date igualmente es **object**, lo cual tampoco hace sentido puesto que aquí deberías ver fechas.
* Al respecto de esto, que una fecha se encuentre en su tipología adecuada es coherente ya que usualmente va a interesar extraer sus componentes (i.e año, mes, dias, etc.)

Profundiza en tu conocimiento del dataset utilizando ahora el método `sample` con el argumento 15, a fin de extraer una muestra aleatoria de los datos de tamaño 15.

Considera los siguientes aspectos observados:

* En el caso de los valores perdidos de Points_Old_Version, destaca que los mismos parecen estár asociados a fechas en las que ya no se utilizaban metodologías antiguas, lo cual hace sentido y por tanto estos valores perdidos **NO SON ERRORES**.
* Points_New_Version presenta casos con el texto "ND", lo cual estaría ocasionando que el tipo de variable no sea el correcto. En todo caso, sucede algo similar con lo visto en el punto anterior, estos "valores ausentes" no deberían considerarse errores al corresponder a fechas donde se aplicaban metodologías anteriores.

Mira más a fondo otras columnas. Por ejemplo, observa los valores posibles de Confederation usando los métodos `unique` y luego `value_counts`.

Está faltando una confederación que corresponde a la de Oceanía (OFC). Esto lo intuimos porque en la muestra de datos obtenida antes, las filas con valores perdidos en Confederation corresponden a países de esta región del mundo.

Verifica lo anterior utilizando un filtro en estos datos.

Utiliza ahora el método `describe` para generar un resumen estadístico de la columna rank. 

Notemos que en algunas mediciones se han alcanzado hasta 209 paises puesto que este es su valor máximo. De hecho, vale mencionar que la FIFA actualmente reconoce a 211 países por lo que podríamos concluir que algunos países comparten una misma posición.

Mantengamos esa curiosidad por conocer más de los datos. Cuenta ahora cuántos paises fueron rankeados en cada una de las fechas. Ordena este conteo de mayor a menor usando el método `sort_values`.

Comprueba finalmente si existen casos duplicados en el dataset. Considerando que existe una gran cantidad de registros en el dataset (aproximadamente 58K filas), por lo que no sería posible hacer una comprobación manual; por tanto utiliza el método `duplicated`.

Mira en mayor detalle estos duplicados para saber de qué se tratan.

Gran parte de estos duplicados corresponden a calificaciones asociadas a la selección de Sudán.

En general, los valores duplicados pueden considerarse errores en el registro de información y nos interesa eliminar estos casos a fin de evitar distorsiones en los futuros resultados del análisis.

A partir de todo este entendimiento de los datos, establece un plan de acción para procesar esta información de modo que la tabla final resultante esté lista para cualquier análisis que desees hacer.

**ESCRIBE AQUÍ TU RESPUESTA**

## Preparación de los datos

Utilizando nuestro plan de acción, procedamos a dejar listo este dataset para los análisis futuros que querramos hacer.

Entonces, en primer lugar ajusta los nombres de las columnas para que estén en formato *snake_case*. Recuerda que este formato exige que todos los nombres se encuentren en minúsculas y los espacios se sustituyan por "_".

Otra forma más elegante y eficiente para hacer esto es mediante una sintaxis llamada *Python Comprehension* que dejaría todo el código anterior así:

```py
df_fifa.columns = [col.lower().replace(" ","_") for col in df_fifa.columns]
```

Como siguiente paso, inputa el valor "OFC" a los casos ausentes de la columna confederation. Utiliza para esto el método `fillna`.

Ajusta ahora la columna points_new_version realizando lo siguiente:

* Cambia los valores perdidos "ND" por un valor perdido adecuado usando el valor `np.nan`.
* Cambia el tipo de variable a float utilizando el método `astype`.

Consolida las columnas points_old_version y points_new_version en una nueva columna llamada *points*, de forma que ya no existan valores ausentes por los cambios metodológicos.

Para evitar confusiones posteriores, elimina las columnas points_old_version y points_new_version. Utiliza el método `drop`.

Transforma la columna rank_date a formato de fecha (datetime) aplicando la función `pd.to_datetime`.

Ahora que esta columna ya es una fecha, es posible extraer sus componentes fundamentales. En este setido, crea una columna *year* y otra *month* que contenga la información correspondiente. 

Adicionalmente, y si bien no está en el plan de acción, podría ser útil especificar en una columna nueva la metodología utilizada para el cálculo de puntos. Crea por tanto la columna *method* la cual cumpla con los siguientes criterios secuenciales:

* Si el año y mes de la fila es menor a Enero 1999 entonces su valor será "1993 - 1998".
* Si el año y mes de la fila es menor a Agosto 2006 entonces su valor será "1999 - 2006"
* Si el año y mes de la fila es menor a Agosto 2011 entonces su valor será "2006 - 2011"
* Todos los demás casos deberían tener el valor "2011 - 2018"

Una forma más eficiente para realizar esto es mediante el método `apply`. Te sugiero que investigues un poco sobre esta función de **Pandas**.

Finalmente, da tratamiento a los duplicados eliminándolos con el método `drop_duplicates`.

Listo, hemos concluido con nuestro plan de acción. Dale una mirada nuevamente al dataframe limpio extrayendo una muestra de 15 elementos.

## Análisis de datos

Es hora que realices tu primer análisis de datos ahora que tienes una tabla con información limpia. Para un correcto análisis vale que tengas siempre en cuenta lo siguiente:

* Su propósito fundamental es **responder preguntas de negocio**, por lo que siempre debes buscar dar rsoluciones concretas en base a tus resultados.
* No se limita a realizar gráficos o tablas resumen, sino a generar **conclusiones** que aporten valor a partir de estas visualizaciones.
* Debe mantener un **hilo de ideas** conductor lo cual implica orden y consistencia entre los resultados.

Visto esto, a continuación verás algunas preguntas de negocio a responder: 

### ¿Cómo ha sido el comportamiento anual del puntaje de la CONMEBOL a partir de la última metodología?

En primer lugar identifica entre las columnas de la tabla cuál es la métrica relevante que debes obtener:

**ESCRIBE AQUÍ TU RESPUESTA**

Ahora, especifica si debes realizar filtros en la tabla a partir de algunas condiciones:

**ESCRIBE AQUÍ TU RESPUESTA**

Para terminar, indica si debes agregar los datos por alguna de las columnas: 

**ESCRIBE AQUÍ TU RESPUESTA**

Construye el código necesario para responder la pregunta utilizando como criterios los aspectos contestados antes.

Genera una conclusión relevante. Recuerda que una conclusión no se limita a una descripción de lo que obtuviste, sino a implicancias, hipótesis o recomendaciones a partir de estos resultados.

**ESCRIBE AQUÍ TU RESPUESTA**
    

### ¿Cual ha sido la confederación peor evaluada en los últimos 3 años registrados?

Establece cuál es la métrica de análisis, los filtros y agrupamientos que necesitas y da una respuesta a la pregunta.

**ESCRIBE AQUÍ UNA CONCLUSIÓN**