<a href="https://colab.research.google.com/github/alejandronatale21051986/Tutoriales/blob/main/pandas_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tutorial de Pandas en Espa√±ol

Este tutorial va de la mano con un blog que publiqu√© en Platzi: [Tutorial de Pandas](https://platzi.com/blog/pandas)

[<img src="/work/images/pandas-logo.png" width="350" />](https://pandas.pydata.org/)

Se lo importa con la siguiente convenci√≥n:

In [1]:
import pandas as pd

## DataFrame

### Crear un DataFrame con Python

#### 1) Diccionario de listas (columna por columna)

In [2]:
football_dict = {
    "player": ["Lionel Messi", "Cristiano Ronaldo"],
    "year": [2016, 2016],
    "goals": [37, 25],
}
football_stats = pd.DataFrame(football_dict)
print(football_stats)

              player  year  goals
0       Lionel Messi  2016     37
1  Cristiano Ronaldo  2016     25


#### 2) Lista de diccionarios (fila por fila)

In [3]:
football_list = [
    {"player": "Lionel Messi", "year": 2016, "goals": 37},
    {"player": "Cristiano Ronaldo", "year": 2016, "goals": 25},
]
football_stats = pd.DataFrame(football_list)
print(football_stats)

              player  year  goals
0       Lionel Messi  2016     37
1  Cristiano Ronaldo  2016     25


## Importar datos

### Base de datos

Usaremos una base de datos de las 5 ligas top de Europa entre los a√±os 2014 y 2020.
> Fuente: [Kaggle](https://www.kaggle.com/shushrutsharma/top-5-football-leagues?select=Fullmetadata.csv)

### Importar csv

`pd.read_csv('path/file.csv')`

In [4]:
df = pd.read_csv('/work/datasets/football_mini_stats.csv')
print(df)

FileNotFoundError: ignored

Importar con una columna como √≠ndice

In [None]:
df = pd.read_csv('/work/datasets/football_mini_stats.csv', index_col='player')
print(df)

In [None]:
df = pd.read_csv('/work/datasets/football_stats.csv', index_col='player_id')
df

## Inspeccionar un DataFrame

- `df.head()` ‚Üí retorna las 5 primeras filas. Tambi√©n le puedes pasar un entero como par√°metro y te devolver√° esa cantidad de primeras filas.
- `df.tail()` ‚Üí retorna las √∫ltimas 5 filas del dataset.
- `df.sample()` ‚Üí es parecido a los 2 anteriores, pero este tomar√° muestras al azar del DataFrame.
- `df.shape` ‚Üí retorna las filas y columnas que tiene el DataFrame.
- `df.size` ‚Üí multiplica las filas y columnas y te da el total de datos del DataFrame.
- `df.info()` ‚Üí este es genial, te da la cuenta de valores no nulos, el tipo de dato de cada columna (recuerda que solo puede haber un √∫nico tipo de dato por columna) y el uso de memoria. Cuando est√©s procesando los datos, ser√° un gran aliado.
- `df.describe()` ‚Üí te ayudar√° mucho con las primeras impresiones de los datos. Calcula algunas estad√≠sticas descriptivas para cada columna.

In [None]:
print(df.sample(3))

In [None]:
print(df.shape)

In [None]:
print(df.size)

In [None]:
print(df.info())

In [None]:
df.describe()

## Ordenar los datos

In [None]:
df.sort_values('player_name', ascending=False)

In [None]:
print(df.sort_values(['team_name', 'goals'], ascending=[True, False]).head(3))

## Subconjuntos y filtros de datos

### Subsetting columns

In [None]:
df['team_name'].unique()

### Filtrar filas

In [None]:
df[df.player_name=='Aaron Connolly']

In [None]:
df[df['player_name']=='Aaron Connolly']

In [None]:
df.query('player_name == "Aaron Connolly"')

#### Uniendo lo aprendido

In [None]:
# Goles de Cristiano Ronaldo en 2014
cr7 = df[(df.player_name == 'Cristiano Ronaldo') & (df.year == 2014)]
cols = ['player_name', 'year', 'goals']
print(cr7[cols])

In [None]:
# Goles de Ronaldo, Messi y Su√°rez en 2015
players = ['Cristiano Ronaldo', 'Lionel Messi', 'Luis Su√°rez']
top_players = df[(df.player_name.isin(players)) & (df.year == 2015)]
print(top_players[cols])

### Subsetting con .loc

In [None]:
# Goles de Ronaldo, Messi y Su√°rez en 2015
df = df.reset_index()
df = df.set_index('player_name')
players = ['Cristiano Ronaldo', 'Lionel Messi', 'Luis Su√°rez']
cols = ['year', 'goals']
top_players = df.loc[players, cols]
print(top_players.query('year==2015'))

## Aplicar funciones a un DataFrame

- `.sum()` ‚Üí suma todos los valores de una columna.
- `.mean()` ‚Üí promedio de los valores de una columna.
- `.max()` ‚Üí valor m√°ximo de una columna.
- `.min()` ‚Üí valor m√≠nimo de una columna.
- `.cumsum()` ‚Üí en cada fila va poniendo la suma acumulada de una columna.
- `.cummax()` ‚Üí en cada fila va poniendo el valor m√°ximo encontrado en orden de una columna.
- `.value_counts(sort=True)` ‚Üí cuenta los distintos valores que existen en una columna (muy √∫til para contar categor√≠as) y los ordena descendientemente.
- `.drop_duplicates(subset='col_name')` ‚Üí elimina duplicados en una columna.

Tambi√©n es posible pasar funciones que nosotros mismos hayamos creado u otras funciones importadas de otras librer√≠as. Para ello se usa `.agg(function)`.

In [None]:
# M√°xima cantidad de goles hechas por un jugador en una temporada

max_goals = df['goals'].max()
cols = ['goals', 'year', 'team_name']
print(df[df.goals == max_goals][cols])

In [None]:
# Porcentaje de disparos al arco que terminan en gol
total_shots = df['shots'].sum()
total_goals = df['goals'].sum()
print(round(total_goals / total_shots * 100, 2))

## Agrupar datos

- `df.groupby()`

In [None]:
# Top 10 jugadores que m√°s goles han marcado
top_players = df.groupby('player_name')['goals'].sum()
print(top_players.sort_values(ascending=False).head(10))

In [None]:
# Top 5 equipos con m√°s tarjetas rojas y amarillas
red_cards = df.groupby('team_name')[['red_cards', 'yellow_cards']].sum()
print(red_cards.sort_values('red_cards', ascending=False).head())

## Crear columnas

In [None]:
df['goals_assists'] = df.goals + df.assists
best_players = df.groupby('player_name')['goals_assists'].sum()
print(best_players.sort_values(ascending=False).head())

# Ejercicios

1. Usa `df.describe()` y cu√©ntanos todos los insights que te dio y qu√© podr√≠a significar cada uno.
2. Encuentra la cantidad de goles totales hechos por cada posici√≥n.
3. ¬øCu√°l es el jugador que m√°s tiempo ha jugado y cu√°l es la media de tiempo de todos los jugadores? *Esta pregunta tiene truco porque hay muchos jugadores suplentes que no juegan casi nunca y van a sesgar los datos, ¬øc√≥mo podr√≠as solucionar esto?*
4. ¬øQu√© posici√≥n es la que m√°s tiempo juega? ¬øY la que menos?
5. ¬øQu√© porcentaje de goles son hechos por penales? *La columna* `npg` *significa: goles hechos SIN penales.*
6. ¬øQu√© porcentaje de goles son hechos con asistencias?
7. ¬øCu√°l fue el equipo que m√°s goles hizo cada a√±o? ¬øSali√≥ campe√≥n ese a√±o?
8. ¬øCu√°ntos jugadores jugaron todos los a√±os del dataset? ¬øQu√© porcentaje del total representan?

In [None]:
# Aqu√≠ tu s√∫per c√≥digo. ¬°T√∫ puedes!

In [None]:
goals_by_team_by_year = df.groupby(["year","team_name"])["goals"].sum()
goals_by_team_by_year.sort_values(ascending=False).reset_index().drop_duplicates('year')

# Regalos üéÅ

Estos regalos son muy especiales porque no solo te ayudar√°n ahora, sino que te abrir√°n un nuevo camino que podr√°s usar el resto de tu vida.

Primero, como no pod√≠a faltar, el cheat sheet de todos los comandos de Pandas:
- [Cheat Sheet de Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

Y ahora, te abrir√© la puerta al mundo de los datasets. Te dejar√© algunos lugares donde podr√°s conseguir datasets de todo lo que te puedas imaginar para que apliques todos tus conocimientos y los a√±adas a tu [propio portafolio](https://platzi.com/blog/deepnote).
- [Kaggle](https://www.kaggle.com/datasets): este es un sitio especial para data scientists que tiene MUCHOS datasets y competiciones para que apliques tus conocimientos.
- [Awesome Public Datasets](https://github.com/awesomedata/awesome-public-datasets): es un repositorio de GitHub que compil√≥ un mont√≥n datasets p√∫blicos y los ordern√≥ por categor√≠as. Podr√≠as usarlos como base para tus futuros proyectos de portafolio.
- [Datsets Seearch](https://datasetsearch.research.google.com/): Google tiene su propio buscador de datasets, prueba encontrar lo que necesitas aqu√≠.

¬°Has aprendido un mont√≥n, me llenas de orgullo! üí™

Me encantar√≠a leer tus respuestas y comentarios en el [blog](https://platzi.com/blog/pandas) üíö

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=d21a300b-571d-4704-b81e-a7ba553b185a' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>