# INTRO: Proceso Análisis Exploratorio
Introducción al EDA (Exploratory Data Analysis).



# 01 Import
Importamos todas las librerías necesarias para este análisis ([¿No sabes lo que es una librería de Python?](https://www.quora.com/What-is-a-Python-library-and-what-can-I-use-it-for)).

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 02 Load Data
El primer paso para analizar datos es, claro, importarlos. Esto no es siempre trivial, especialmente trabajando con Colab ya que nuestro notebook está en la nube de Google y hay que conseguir hacer llegar los datos allí también.

Vamos a ver [varias formas de importar](https://towardsdatascience.com/3-ways-to-load-csv-files-into-colab-7c14fcbdcb92) datos en Colab.


*   Importar una tabla desde Github
*   Cargar (y luego importar) una tabla de nuestro local
*   Importar una tabla de Google Drive

## 0201 Importar una tabla desde GitHub

Es posible importar una tabla que guardemos en GitHub ([¿No sabes lo que es GitHub?](https://guides.github.com/activities/hello-world/)). GitHub es un repositorio de código, más que un lugar donde guardar datos habitualmente. De todas formas, podemos importar una tabla (pequeña) desde gitHub así:

1.   Las tablas deben ser pequeñas, pues GitHub no permite archivos mayores de 25MB
2.   Localiza la tabla en un repositorio tuyo o público
3.   Pulsa en la opción RAW y copia el link de la dirección resultante
4.   Importa los datos utilizando pd.read_csv(link_raw)



### 020101 EJEMPLO 1: Covid-19
La universidad Johns Hopkins (USA) viene recopilando datos de la mayor fiabilidad posible sobre los casos y muertes confirmados por covid-19 mundialmente. Los datos son públicos y se actualizan diariamente en [su repositorio de GitHub](https://github.com/CSSEGISandData/COVID-19).

Dentro de este repositorio, hay diversos datasets, fuentes, código. Pongamos que nos interesa el dataset de casos confirmados a nivel mundial.

¿Cómo podemos cargalo en este notebook en un Dataframe llamado df_covid?

In [None]:
# url de archivo raw de casos confirmados
url = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv'

# carga el archivo en un dataframe df_covid
df_covid = pd.read_csv(url)

df_covid.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/28/23,3/1/23,3/2/23,3/3/23,3/4/23,3/5/23,3/6/23,3/7/23,3/8/23,3/9/23
0,,Afghanistan,33.93911,67.709953,0,0,0,0,0,0,...,209322,209340,209358,209362,209369,209390,209406,209436,209451,209451
1,,Albania,41.1533,20.1683,0,0,0,0,0,0,...,334391,334408,334408,334427,334427,334427,334427,334427,334443,334457
2,,Algeria,28.0339,1.6596,0,0,0,0,0,0,...,271441,271448,271463,271469,271469,271477,271477,271490,271494,271496
3,,Andorra,42.5063,1.5218,0,0,0,0,0,0,...,47866,47875,47875,47875,47875,47875,47875,47875,47890,47890
4,,Angola,-11.2027,17.8739,0,0,0,0,0,0,...,105255,105277,105277,105277,105277,105277,105277,105277,105288,105288


## 0202 Importar una tabla local

Es posible importar una tabla que guardemos en nuestro local (en nuestro PC).

1.   Primero tendremos que subir el archivo de nuestro local a la nube de Google
2.   Luego generamos un buffer de los datos
3.   Finalmente los importaremos utilizando pd.read_csv()

### 020201 EJEMPLO 2: SP500
Descargad [ese dataset](https://drive.google.com/file/d/1p_RLRZNJadzsbqycWd_BhWXJ3IQGpR0e/view?usp=sharing) de mi Google Drive personal a vuestro PC. Recoge la evolución diaria histórica del [SP&500](https://en.wikipedia.org/wiki/S%26P_500_Index).


Ahora que está en vuestro local, ¿Cómo podríamos cargarlo a este notebook?

In [None]:
# Subimos el archivo
from google.colab import files
uploaded = files.upload()

Saving sp500.csv to sp500.csv


In [None]:
# Cargamos el archivo ya subido en un dataframe
df_sp500 = pd.read_csv("sp500.csv")
df_sp500.head(3)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,1927-12-30,17.66,17.66,17.66,17.66,17.66,0
1,1928-01-03,17.76,17.76,17.76,17.76,17.76,0
2,1928-01-04,17.719999,17.719999,17.719999,17.719999,17.719999,0


## 0203 Importar una tabla de Google Drive

Es posible importar una tabla guardada en Google Drive. Requiere:

1.   Emparejar Colab y Google Drive
2.   Importarlo utilizando pd.read_csv()

### 020301 EJEMPLO 3: Fifa19
Descargad [este dataset](https://drive.google.com/file/d/108ebd2uOktJ4Z54mRbQbc1aot2YZ_RSv/view?usp=sharing) con las características de los jugadores del Fifa 19 de este Google Drive a vuestro pc y luego subidlo a vuestro Google Drive.

¿Cómo podríamos cargarlo desde ahí a este notebook?

In [None]:
# Primero emparejamos Colab con Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Importamos el archivos usando read_csv()
dir_archivo = 'drive/My Drive/Data/Clases/fifa19.csv'
df_fifa19 = pd.read_csv(dir_archivo)
df_fifa19.head()






































































































































































































































































































## 0204 EJERCICIO 1: Importar una tabla de varias formas

[Kaggle](https://www.kaggle.com/) es un sitio web imprescindible si estás aprendiendo ciencia de datos. Hay competiciones de machine learning, cursos, posts...

Y también es un buen sitio para buscar datos, como haremos en esta ocasión. Yo me he fijado en [este](https://www.kaggle.com/miguelsxvi/air-quality-madrid-2001-2020?select=calidad_aire_madrid.csv), que contiene la evolución diaria de la concentración de diversas partículas contaminantes en Madrid.

Leed la descripción de la página para familiarizaros con Kaggle y descargad el csv a vuestro pc. Luego, probad a cargarlo en este Notebook utilizando las 3 formas que hemos visto. (Para traerlo desde GitHub podéis utilizar [esta copia del archivo en mi GitHub personal](https://github.com/JotaBlanco/TheValley/blob/main/Data/calidad_aire_madrid.csv)). Comparad la velocidad y sencillez de cada método.

In [None]:
# DESDE GITHUB
url = 'https://raw.githubusercontent.com/ssillerom/modulo_analisis_exploratorio/main/data/calidad_aire_madrid.csv'

# carga el archivo en un dataframe df_covid
df_aire = pd.read_csv(url)

df_aire.head()

Unnamed: 0,estacion,fecha,magnitud,nivel
0,4,2001-1-1,1,17.0
1,4,2001-1-2,1,15.0
2,4,2001-1-3,1,15.0
3,4,2001-1-4,1,15.0
4,4,2001-1-5,1,16.0


In [None]:
# DESDE LOCAL
# Generamos un objeto para subir el archivo
# Esto genera una variable (uploaded) con la información del datasets en bytes
from google.colab import files
uploaded = files.upload()
# Convertimos los bytes a formato tabular (como el file row que veíamos para Github)
import io
buffer_io = io.BytesIO(uploaded['calidad_aire_madrid.csv'])


# Cargamos en un dataframe
df_aire = pd.read_csv(buffer_io)
df_aire.head(3)

KeyboardInterrupt: ignored

In [None]:
# DESDE GOOGLE DRIVE
# Primero emparejamos Colab con Google Drive
from google.colab import drive
drive.mount('/content/drive')
# Importamos el archivos usando read_csv()
dir_archivo = '/content/drive/My Drive/Data/Clases/calidad_aire_madrid.csv'
df_aire = pd.read_csv(dir_archivo)
df_aire.head()

## 0205 CHULETA
Dado que los dataframes importados hasta ahora se usan más tarde a lo largo de este notebook, si habéis tenido cualquier problema al importarlos podéis hacerlo ahora desde mi github:

In [None]:
url_covid = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv'
url_sp500 = 'https://raw.githubusercontent.com/ssillerom/modulo_analisis_exploratorio/main/data/sp500.csv'
url_fifa = 'https://raw.githubusercontent.com/ssillerom/modulo_analisis_exploratorio/main/data/fifa19.csv'
url_aire = 'https://raw.githubusercontent.com/ssillerom/modulo_analisis_exploratorio/main/data/calidad_aire_madrid.csv'

df_covid = pd.read_csv(url_covid)
df_sp500 = pd.read_csv(url_sp500)
df_fifa19 = pd.read_csv(url_fifa)
df_aire = pd.read_csv(url_aire)

# 03 Basic checks
Una vez se han importado los datos, empezamos realizando comprobaciones básicas: tamaño de la tabla, columnas presentes, etc.

El método dataframe.[info()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html) es muy útil para esto.

In [None]:
df_sp500.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23323 entries, 0 to 23322
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       23323 non-null  object 
 1   Open       23323 non-null  float64
 2   High       23323 non-null  float64
 3   Low        23323 non-null  float64
 4   Close      23323 non-null  float64
 5   Adj Close  23323 non-null  float64
 6   Volume     23323 non-null  int64  
dtypes: float64(5), int64(1), object(1)
memory usage: 1.2+ MB


## 0301 Vista previa
Una buena primera comprobación suele ser visualizar la tabla.

Aquí son muy útiles los métodos dataframe.[head()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html) y dataframe.[tail()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html).

In [None]:
df_sp500.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,1927-12-30,17.66,17.66,17.66,17.66,17.66,0
1,1928-01-03,17.76,17.76,17.76,17.76,17.76,0
2,1928-01-04,17.719999,17.719999,17.719999,17.719999,17.719999,0
3,1928-01-05,17.549999,17.549999,17.549999,17.549999,17.549999,0
4,1928-01-06,17.66,17.66,17.66,17.66,17.66,0


In [None]:
df_sp500.head(2)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,1927-12-30,17.66,17.66,17.66,17.66,17.66,0
1,1928-01-03,17.76,17.76,17.76,17.76,17.76,0


In [None]:
df_sp500.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
23318,2020-10-29,3277.169922,3341.050049,3259.820068,3310.110107,3310.110107,4903070000
23319,2020-10-30,3293.590088,3304.929932,3233.939941,3269.959961,3269.959961,4840450000
23320,2020-11-02,3296.199951,3330.139893,3279.73999,3310.23999,3310.23999,4310590000
23321,2020-11-03,3336.25,3389.48999,3336.25,3369.159912,3369.159912,4220070000
23322,2020-11-04,3406.459961,3486.25,3405.169922,3443.439941,3443.439941,4783040000


### iloc[filas,columnas]
Filtra el dataframe para quedarse con datos concretos utilizando indices.

In [None]:
df_sp500.iloc[1:3]

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
1,1928-01-03,17.76,17.76,17.76,17.76,17.76,0
2,1928-01-04,17.719999,17.719999,17.719999,17.719999,17.719999,0


In [None]:
df_sp500.iloc[-5:,:5]

Unnamed: 0,Date,Open,High,Low,Close
23318,2020-10-29,3277.169922,3341.050049,3259.820068,3310.110107
23319,2020-10-30,3293.590088,3304.929932,3233.939941,3269.959961
23320,2020-11-02,3296.199951,3330.139893,3279.73999,3310.23999
23321,2020-11-03,3336.25,3389.48999,3336.25,3369.159912
23322,2020-11-04,3406.459961,3486.25,3405.169922,3443.439941


### loc[filas,columnas]
Filtra el dataframe para quedarse con datos concretos utilizando valores.

In [None]:
df_sp500.loc[2:5, ['Date','Open','Close']]

Unnamed: 0,Date,Open,Close
2,1928-01-04,17.719999,17.719999
3,1928-01-05,17.549999,17.549999
4,1928-01-06,17.66,17.66
5,1928-01-09,17.5,17.5


In [None]:
# Admite filtros!
filtro_posterior_2018 = df_sp500['Date'] > '2018-12-31'
filtro_posterior_2018

0        False
1        False
2        False
3        False
4        False
         ...  
23318     True
23319     True
23320     True
23321     True
23322     True
Name: Date, Length: 23323, dtype: bool

In [None]:
filtro_2018 = df_sp500.loc[filtro_posterior_2018, ['Date','Open','Close']]

In [None]:
filtro_2018

Unnamed: 0,Date,Open,Close
0,2019-01-02,2476.959961,2510.030029
1,2019-01-03,2491.919922,2447.889893
2,2019-01-04,2474.330078,2531.939941
3,2019-01-07,2535.610107,2549.689941
4,2019-01-08,2568.110107,2574.409912
...,...,...,...
461,2020-10-29,3277.169922,3310.110107
462,2020-10-30,3293.590088,3269.959961
463,2020-11-02,3296.199951,3310.239990
464,2020-11-03,3336.250000,3369.159912


In [None]:
filtro_2018.reset_index(inplace=True, drop=True)

## 0302 Tamaño
El tamaño de las tablas se puede comprobar con dataframe.[shape](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html), que devuelve un tupple (filas, columnas).

In [None]:
df_covid.shape

(289, 1147)

In [None]:
# filas
df_covid.shape[0]

289

In [None]:
# filas
len(df_covid)

289

In [None]:
# columnas
df_covid.shape[1]

1147

In [None]:
df_sp500.shape

(23323, 7)

In [None]:
df_fifa19.shape

(18207, 89)

In [None]:
df_aire.shape

(844223, 4)

## 0303 Tipos de datos
Qué tipos de datos contiene nuestro dataframe?

In [None]:
df_fifa19.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18207 entries, 0 to 18206
Data columns (total 89 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Unnamed: 0                18207 non-null  int64  
 1   ID                        18207 non-null  int64  
 2   Name                      18207 non-null  object 
 3   Age                       18207 non-null  int64  
 4   Photo                     18207 non-null  object 
 5   Nationality               18207 non-null  object 
 6   Flag                      18207 non-null  object 
 7   Overall                   18207 non-null  int64  
 8   Potential                 18207 non-null  int64  
 9   Club                      17966 non-null  object 
 10  Club Logo                 18207 non-null  object 
 11  Value                     18207 non-null  object 
 12  Wage                      18207 non-null  object 
 13  Special                   18207 non-null  int64  
 14  Prefer

In [None]:
df_fifa19.head(2)

Unnamed: 0.1,Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
1,1,20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Juventus,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M


In [None]:
lista_id = df_fifa19['ID'].to_list()

In [None]:
type(lista_id)

list

In [None]:
type(df_fifa19['ID'][0])

numpy.int64

In [None]:
type(df_fifa19['Name'][0])

str

## 0304 Variables
El método dataframe.[columns](https://www.google.com/search?q=dataframe+columns&oq=dataframe+columns&aqs=chrome..69i57j0l5.5054j0j4&sourceid=chrome&ie=UTF-8) devuelve las columnas de nuestra tabla en orden. Es útil en lugar del método info() cuando tenemos muchas columnas, o para realizar operaciones con ellas.

In [None]:
lista

['Loaned From',
 'LS',
 'LW',
 'LF',
 'LAM',
 'LM',
 'LCM',
 'LWB',
 'LDM',
 'LB',
 'LCB',
 'LongPassing',
 'LongShots']

In [None]:
lista = []

for col in df_fifa19.columns:

    if col.startswith("L"):
      lista.append(col)


In [None]:
df_fifa19[l_cols]

Unnamed: 0,Loaned From,LS,LW,LF,LAM,LM,LCM,LWB,LDM,LB,LCB,LongPassing,LongShots
0,,88+2,92+2,93+2,93+2,91+2,84+2,64+2,61+2,59+2,47+2,87.0,94.0
1,,91+3,89+3,90+3,88+3,88+3,81+3,65+3,61+3,61+3,53+3,77.0,93.0
2,,84+3,89+3,89+3,89+3,88+3,81+3,65+3,60+3,60+3,47+3,78.0,82.0
3,,,,,,,,,,,,51.0,12.0
4,,82+3,87+3,87+3,88+3,88+3,87+3,77+3,77+3,73+3,66+3,91.0,91.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
18202,,42+2,44+2,44+2,45+2,44+2,45+2,44+2,45+2,45+2,45+2,45.0,38.0
18203,,45+2,39+2,42+2,40+2,38+2,35+2,30+2,31+2,29+2,32+2,25.0,42.0
18204,,45+2,45+2,46+2,44+2,44+2,38+2,34+2,30+2,33+2,28+2,28.0,45.0
18205,,47+2,47+2,46+2,45+2,46+2,39+2,36+2,32+2,35+2,31+2,32.0,34.0


In [None]:
l_cols = [col for col in df_fifa19.columns if col.startswith("L")]

In [None]:
df_fifa19.columns

Index(['Unnamed: 0', 'ID', 'Name', 'Age', 'Photo', 'Nationality', 'Flag',
       'Overall', 'Potential', 'Club', 'Club Logo', 'Value', 'Wage', 'Special',
       'Preferred Foot', 'International Reputation', 'Weak Foot',
       'Skill Moves', 'Work Rate', 'Body Type', 'Real Face', 'Position',
       'Jersey Number', 'Joined', 'Loaned From', 'Contract Valid Until',
       'Height', 'Weight', 'LS', 'ST', 'RS', 'LW', 'LF', 'CF', 'RF', 'RW',
       'LAM', 'CAM', 'RAM', 'LM', 'LCM', 'CM', 'RCM', 'RM', 'LWB', 'LDM',
       'CDM', 'RDM', 'RWB', 'LB', 'LCB', 'CB', 'RCB', 'RB', 'Crossing',
       'Finishing', 'HeadingAccuracy', 'ShortPassing', 'Volleys', 'Dribbling',
       'Curve', 'FKAccuracy', 'LongPassing', 'BallControl', 'Acceleration',
       'SprintSpeed', 'Agility', 'Reactions', 'Balance', 'ShotPower',
       'Jumping', 'Stamina', 'Strength', 'LongShots', 'Aggression',
       'Interceptions', 'Positioning', 'Vision', 'Penalties', 'Composure',
       'Marking', 'StandingTackle', 'SlidingT

## 0305 EJEMPLO 4: Comprobaciones básicas
Hagamos las comprobaciones básicas del dataframe sobre la calidad del aire de Madrid:


*   Número de filas y columnas
*   Nombre de las columnas
*   Tipos de dato de cada columna
*   Vista previa de los primeros y últimos valores

In [None]:
# info()
df_aire.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 844223 entries, 0 to 844222
Data columns (total 4 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   estacion  844223 non-null  int64  
 1   fecha     844223 non-null  object 
 2   magnitud  844223 non-null  int64  
 3   nivel     814437 non-null  float64
dtypes: float64(1), int64(2), object(1)
memory usage: 25.8+ MB


In [None]:
# Vista previas
display(df_aire.head())
display(df_aire.tail())

Unnamed: 0,estacion,fecha,magnitud,nivel
0,4,2001-1-1,1,17.0
1,4,2001-1-2,1,15.0
2,4,2001-1-3,1,15.0
3,4,2001-1-4,1,15.0
4,4,2001-1-5,1,16.0


Unnamed: 0,estacion,fecha,magnitud,nivel
844218,60,2020-3-27,14,89.0
844219,60,2020-3-28,14,76.0
844220,60,2020-3-29,14,76.0
844221,60,2020-3-30,14,82.0
844222,60,2020-3-31,14,64.0


Error: Runtime no longer has a reference to this dataframe, please re-run this cell and try again.


# 04 Limpieza de Nulos
Los nulos son habituales y un poco molestos. Constituyen una pérdida de información y pueden impedir ciertos cálculos.

Es importante detectarlos y, cuando sea posible, corregirlos.

## 0401 Nulos por variable
Podemos ver el número de nulos por variable.

Dataframe[.isna()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isna.html) es un método muy útil.

In [None]:
# Método isna()
df_fifa19.isna().head()

Unnamed: 0.1,Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [None]:
df_fifa19.isna().sum()

Unnamed: 0           0
ID                   0
Name                 0
Age                  0
Photo                0
                  ... 
GKHandling          48
GKKicking           48
GKPositioning       48
GKReflexes          48
Release Clause    1564
Length: 89, dtype: int64

In [None]:
df_nulos = pd.DataFrame(df_fifa19.isna().sum()).T

### 040101 EJEMPLO 5: Función buscadora de nulos
vamos a crear una función que, dado un dataframe, muestra una tabla con el número de nulos por variable ordenado de mayor a menor.

In [None]:
def contador_nulos(df):
  """
  Función que devuelve un dataframe indicando el número de nulos en cada
  variables.
  """
  df_nulos = pd.DataFrame(df.isna().sum())
  df_nulos.columns = ['# Nulos']
  return df_nulos.sort_values('# Nulos', ascending=False)

In [None]:
contador_nulos(df_covid)

Unnamed: 0,# Nulos
Province/State,198
Lat,2
Long,2
2/19/22,0
2/25/22,0
...,...
2/11/21,0
2/12/21,0
2/13/21,0
2/14/21,0


In [None]:
contador_nulos(df_sp500)

Unnamed: 0,# Nulos
Date,0
Open,0
High,0
Low,0
Close,0
Adj Close,0
Volume,0


In [None]:
df_contador = contador_nulos(df_fifa19)
df_contador.head()

Unnamed: 0,# Nulos
Loaned From,16943
LWB,2085
LCM,2085
RS,2085
LW,2085


## 0402 Explorar Nulos
Cuando sea posible es recomendable entender la causa de los nulos. Hay algún patrón que se repite entre los nulos?

In [None]:
# La columna 'Lat' solo tenía un nulo, podemos entender por qué?
filtro_lat_nulo = df_covid['Lat'].isna()
df_covid.loc[filtro_lat_nulo, ['Province/State', 'Country/Region', 'Lat', 'Long']]

Unnamed: 0,Province/State,Country/Region,Lat,Long
53,Repatriated Travellers,Canada,,
89,Unknown,China,,


### EJEMPLO 6: Entender nulos en 'Province/State'
En esta columna hay muchos nulos: 188. Para entender cuándo están presentes, vamos a qué paises pertenencen y a cuáles no.

In [None]:
df_covid[df_covid["Province/State"].isna()]

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/28/23,3/1/23,3/2/23,3/3/23,3/4/23,3/5/23,3/6/23,3/7/23,3/8/23,3/9/23
0,,Afghanistan,33.939110,67.709953,0,0,0,0,0,0,...,209322,209340,209358,209362,209369,209390,209406,209436,209451,209451
1,,Albania,41.153300,20.168300,0,0,0,0,0,0,...,334391,334408,334408,334427,334427,334427,334427,334427,334443,334457
2,,Algeria,28.033900,1.659600,0,0,0,0,0,0,...,271441,271448,271463,271469,271469,271477,271477,271490,271494,271496
3,,Andorra,42.506300,1.521800,0,0,0,0,0,0,...,47866,47875,47875,47875,47875,47875,47875,47875,47890,47890
4,,Angola,-11.202700,17.873900,0,0,0,0,0,0,...,105255,105277,105277,105277,105277,105277,105277,105277,105288,105288
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284,,West Bank and Gaza,31.952200,35.233200,0,0,0,0,0,0,...,703228,703228,703228,703228,703228,703228,703228,703228,703228,703228
285,,Winter Olympics 2022,39.904200,116.407400,0,0,0,0,0,0,...,535,535,535,535,535,535,535,535,535,535
286,,Yemen,15.552727,48.516388,0,0,0,0,0,0,...,11945,11945,11945,11945,11945,11945,11945,11945,11945,11945
287,,Zambia,-13.133897,27.849332,0,0,0,0,0,0,...,343012,343012,343079,343079,343079,343135,343135,343135,343135,343135


In [None]:
filtro_col_nulos = df_covid['Province/State'].isna()
filtro_col_nulos

0      True
1      True
2      True
3      True
4      True
       ... 
284    True
285    True
286    True
287    True
288    True
Name: Province/State, Length: 289, dtype: bool

In [None]:
filtro_col_no_nulos = df_covid['Province/State'].notnull()
df_covid[filtro_col_no_nulos]

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/28/23,3/1/23,3/2/23,3/3/23,3/4/23,3/5/23,3/6/23,3/7/23,3/8/23,3/9/23
9,Australian Capital Territory,Australia,-35.473500,149.012400,0,0,0,0,0,0,...,232018,232018,232619,232619,232619,232619,232619,232619,232619,232974
10,New South Wales,Australia,-33.868800,151.209300,0,0,0,0,3,4,...,3900969,3900969,3908129,3908129,3908129,3908129,3908129,3908129,3908129,3915992
11,Northern Territory,Australia,-12.463400,130.845600,0,0,0,0,0,0,...,104931,104931,105021,105021,105021,105021,105021,105021,105021,105111
12,Queensland,Australia,-27.469800,153.025100,0,0,0,0,0,0,...,1796633,1796633,1800236,1800236,1800236,1800236,1800236,1800236,1800236,1800236
13,South Australia,Australia,-34.928500,138.600700,0,0,0,0,0,0,...,880207,880207,881911,881911,881911,881911,881911,881911,881911,883620
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
273,Jersey,United Kingdom,49.213800,-2.135800,0,0,0,0,0,0,...,66391,66391,66391,66391,66391,66391,66391,66391,66391,66391
274,Montserrat,United Kingdom,16.742498,-62.187366,0,0,0,0,0,0,...,1403,1403,1403,1403,1403,1403,1403,1403,1403,1403
275,Pitcairn Islands,United Kingdom,-24.376800,-128.324200,0,0,0,0,0,0,...,4,4,4,4,4,4,4,4,4,4
276,"Saint Helena, Ascension and Tristan da Cunha",United Kingdom,-7.946700,-14.355900,0,0,0,0,0,0,...,2166,2166,2166,2166,2166,2166,2166,2166,2166,2166


In [None]:
df_covid.loc[filtro_col_nulos, 'Country/Region']

0               Afghanistan
1                   Albania
2                   Algeria
3                   Andorra
4                    Angola
               ...         
284      West Bank and Gaza
285    Winter Olympics 2022
286                   Yemen
287                  Zambia
288                Zimbabwe
Name: Country/Region, Length: 198, dtype: object

In [None]:
df_covid[df_covid.duplicated()]

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/28/23,3/1/23,3/2/23,3/3/23,3/4/23,3/5/23,3/6/23,3/7/23,3/8/23,3/9/23


In [None]:
paises_provincia_nulos = df_covid.loc[filtro_col_nulos, 'Country/Region'].unique()
paises_provincia_nulos

array(['Afghanistan', 'Albania', 'Algeria', 'Andorra', 'Angola',
       'Antarctica', 'Antigua and Barbuda', 'Argentina', 'Armenia',
       'Austria', 'Azerbaijan', 'Bahamas', 'Bahrain', 'Bangladesh',
       'Barbados', 'Belarus', 'Belgium', 'Belize', 'Benin', 'Bhutan',
       'Bolivia', 'Bosnia and Herzegovina', 'Botswana', 'Brazil',
       'Brunei', 'Bulgaria', 'Burkina Faso', 'Burma', 'Burundi',
       'Cabo Verde', 'Cambodia', 'Cameroon', 'Central African Republic',
       'Chad', 'Chile', 'Colombia', 'Comoros', 'Congo (Brazzaville)',
       'Congo (Kinshasa)', 'Costa Rica', "Cote d'Ivoire", 'Croatia',
       'Cuba', 'Cyprus', 'Czechia', 'Denmark', 'Diamond Princess',
       'Djibouti', 'Dominica', 'Dominican Republic', 'Ecuador', 'Egypt',
       'El Salvador', 'Equatorial Guinea', 'Eritrea', 'Estonia',
       'Eswatini', 'Ethiopia', 'Fiji', 'Finland', 'France', 'Gabon',
       'Gambia', 'Georgia', 'Germany', 'Ghana', 'Greece', 'Grenada',
       'Guatemala', 'Guinea', 'Guinea-Bissa

In [None]:
paises_provincia_no_nulos = df_covid.loc[filtro_col_no_nulos, 'Country/Region'].unique()
paises_provincia_no_nulos

array(['Australia', 'Canada', 'China', 'Denmark', 'France', 'Netherlands',
       'New Zealand', 'United Kingdom'], dtype=object)

## 0403 Tratamiento de Nulos
Una vez hemos detectado los nulos presentes en la tabla podemos corregirlos de varias formas.

### 040301 Prescindir de Nulos
Si tenemos pocas filas con nulos y consideramos que no son muy decisivas, podemos prescindir de dichas filas con el método dataframe.[dropna()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html).

In [None]:
# Tamaño del dataframe original
df_covid.shape

(289, 1147)

In [None]:
# Eliminamos filas con nulos en la columna 'Lat'
df_covid_drop_null_lat = df_covid.dropna()
df_covid_drop_null_lat.shape

(89, 1147)

#### 04030101 EJEMPLO 7: Eliminar filas
En el dataframe de jugadores del Fifa, si hay ciertas filas con con gran presencia de nulos y éstas no suponen un número significativo para el total, podemos eliminarlas.

In [None]:
(48/df_fifa19.shape[0])  * 100

0.26363486571099026

In [None]:
df_fifa19.shape

(18207, 89)

In [None]:
# Parece que hay 48 jugadores de los que no tenemos datos. Son poquitos
# (comparado con el total de 18207) así que podemos prescindir de ellos
df_contador.head(50)

Unnamed: 0,# Nulos
Loaned From,16943
LWB,2085
LCM,2085
RS,2085
LW,2085
LF,2085
CF,2085
RF,2085
RW,2085
LAM,2085


In [None]:
# Eliminamos aquellas filas que no tienen informado el peso del jugardor
df_fifa19.dropna(axis=0, subset=['Weight'], inplace=True)
df_contador = contador_nulos(df_fifa19)
df_contador.head(50)

Unnamed: 0,# Nulos
Loaned From,16895
LWB,2037
LCM,2037
RS,2037
LW,2037
LF,2037
CF,2037
RF,2037
RW,2037
LAM,2037


In [None]:
df_fifa19.shape

(18159, 89)

### 040302 Rellenar Nulos con Valores
Podemos sustituir los nulos con valores concretos: 0, la media o mediana, etc.

Para esto podemos utilizar el método dataframe.[fillna()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html#pandas.DataFrame.fillna).

In [None]:
df_contaador = contador_nulos(df_fifa19)
df_contador.head(50)

In [None]:
df_fifa19.describe()

Unnamed: 0.1,Unnamed: 0,ID,Age,Overall,Potential,Special,International Reputation,Weak Foot,Skill Moves,Jersey Number,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
count,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18147.0,...,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0
mean,9092.013051,214279.590286,25.122529,66.249904,71.319126,1597.903959,1.113222,2.947299,2.361308,19.546096,...,48.548598,58.648274,47.281623,47.697836,45.661435,16.616223,16.391596,16.232061,16.388898,16.710887
std,5258.642938,29968.46188,4.670568,6.914613,6.13442,272.86227,0.394031,0.660456,0.756164,15.947765,...,15.704053,11.436133,19.904397,21.664004,21.289135,17.695349,16.9069,16.502864,17.034669,17.955119
min,0.0,16.0,16.0,46.0,48.0,731.0,1.0,1.0,1.0,1.0,...,5.0,3.0,3.0,2.0,3.0,1.0,1.0,1.0,1.0,1.0
25%,4539.5,200300.0,21.0,62.0,67.0,1457.0,1.0,3.0,2.0,8.0,...,39.0,51.0,30.0,27.0,24.0,8.0,8.0,8.0,8.0,8.0
50%,9079.0,221743.0,25.0,66.0,71.0,1635.0,1.0,3.0,2.0,17.0,...,49.0,60.0,53.0,55.0,52.0,11.0,11.0,11.0,11.0,11.0
75%,13666.5,236508.5,28.0,71.0,75.0,1787.0,1.0,3.0,3.0,26.0,...,60.0,67.0,64.0,66.0,64.0,14.0,14.0,14.0,14.0,14.0
max,18206.0,246620.0,45.0,94.0,95.0,2346.0,5.0,5.0,5.0,99.0,...,92.0,96.0,94.0,93.0,91.0,90.0,92.0,91.0,90.0,94.0


In [None]:
# Nulos en columna 'Club'
df_fifa19['Club'] = df_fifa19['Club'].fillna('Unknown')

In [None]:
mediana_dorsal

17.0

In [None]:
mediana_dorsal = df_fifa19['Jersey Number'].median()

In [None]:
# Nulos en columna 'Jersey Number'
mediana_dorsal = df_fifa19['Jersey Number'].median()
df_fifa19['Jersey Number'] = df_fifa19['Jersey Number'].fillna(mediana_dorsal)

# 05 Limpieza de datos
Es habitual que algunos de los datos se encuentren en formatos no apropiados.


## 0501 Limpieza de Formatos
A veces los datos se encuentran en formatos no adecuados. Un formato correspondiente con el tipo de dato permitirá realizar ciertas operaciones con mayor facilidad.

Para esto nos serán de utilidad los métodos:

*   [astype()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html)
*   [to_datetime()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html)

In [None]:
df_sp500.loc[:5,'Date']

0    1927-12-30
1    1928-01-03
2    1928-01-04
3    1928-01-05
4    1928-01-06
5    1928-01-09
Name: Date, dtype: object

In [None]:
df_sp500.loc[0,'Date'][0]

TypeError: ignored

In [None]:
type(df_sp500.loc[:5,'Date'][0])

str

In [None]:
df_sp500.dtypes

Date         datetime64[ns]
Open                float64
High                float64
Low                 float64
Close               float64
Adj Close           float64
Volume                int64
dtype: object

In [None]:
df_sp500[df_sp500["Date"] >= '2018-11-11']

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
22824,2018-11-12,2773.929932,2775.989990,2722.000000,2726.219971,2726.219971,3670930000
22825,2018-11-13,2730.050049,2754.600098,2714.979980,2722.179932,2722.179932,4091440000
22826,2018-11-14,2737.899902,2746.800049,2685.750000,2701.580078,2701.580078,4402370000
22827,2018-11-15,2693.520020,2735.379883,2670.750000,2730.199951,2730.199951,4179140000
22828,2018-11-16,2718.540039,2746.750000,2712.159912,2736.270020,2736.270020,3975180000
...,...,...,...,...,...,...,...
23318,2020-10-29,3277.169922,3341.050049,3259.820068,3310.110107,3310.110107,4903070000
23319,2020-10-30,3293.590088,3304.929932,3233.939941,3269.959961,3269.959961,4840450000
23320,2020-11-02,3296.199951,3330.139893,3279.739990,3310.239990,3310.239990,4310590000
23321,2020-11-03,3336.250000,3389.489990,3336.250000,3369.159912,3369.159912,4220070000


In [None]:
df_sp500["month"] = df_sp500["Date"].dt.month

In [None]:
df_sp500

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,year,month
0,1927-12-30,17.660000,17.660000,17.660000,17.660000,17.660000,0,1927,12
1,1928-01-03,17.760000,17.760000,17.760000,17.760000,17.760000,0,1928,1
2,1928-01-04,17.719999,17.719999,17.719999,17.719999,17.719999,0,1928,1
3,1928-01-05,17.549999,17.549999,17.549999,17.549999,17.549999,0,1928,1
4,1928-01-06,17.660000,17.660000,17.660000,17.660000,17.660000,0,1928,1
...,...,...,...,...,...,...,...,...,...
23318,2020-10-29,3277.169922,3341.050049,3259.820068,3310.110107,3310.110107,4903070000,2020,10
23319,2020-10-30,3293.590088,3304.929932,3233.939941,3269.959961,3269.959961,4840450000,2020,10
23320,2020-11-02,3296.199951,3330.139893,3279.739990,3310.239990,3310.239990,4310590000,2020,11
23321,2020-11-03,3336.250000,3389.489990,3336.250000,3369.159912,3369.159912,4220070000,2020,11


In [None]:
# Cambiamos el formato de la columna 'Date'
df_sp500['Date'] = pd.to_datetime(
    df_sp500['Date'], format='%Y-%m-%d', errors='ignore')

## 0502 Eliminación de variables
Se pueden eliminar columnas o filas no necesarias con el método dataframe.[drop()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html).

In [None]:
df_fifa19.head(3)

Unnamed: 0.1,Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
1,1,20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Juventus,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M
2,2,190871,Neymar Jr,26,https://cdn.sofifa.org/players/4/19/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,Paris Saint-Germain,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M


In [None]:
df_fifa19.columns

Index(['Unnamed: 0', 'ID', 'Name', 'Age', 'Photo', 'Nationality', 'Flag',
       'Overall', 'Potential', 'Club', 'Club Logo', 'Value', 'Wage', 'Special',
       'Preferred Foot', 'International Reputation', 'Weak Foot',
       'Skill Moves', 'Work Rate', 'Body Type', 'Real Face', 'Position',
       'Jersey Number', 'Joined', 'Loaned From', 'Contract Valid Until',
       'Height', 'Weight', 'LS', 'ST', 'RS', 'LW', 'LF', 'CF', 'RF', 'RW',
       'LAM', 'CAM', 'RAM', 'LM', 'LCM', 'CM', 'RCM', 'RM', 'LWB', 'LDM',
       'CDM', 'RDM', 'RWB', 'LB', 'LCB', 'CB', 'RCB', 'RB', 'Crossing',
       'Finishing', 'HeadingAccuracy', 'ShortPassing', 'Volleys', 'Dribbling',
       'Curve', 'FKAccuracy', 'LongPassing', 'BallControl', 'Acceleration',
       'SprintSpeed', 'Agility', 'Reactions', 'Balance', 'ShotPower',
       'Jumping', 'Stamina', 'Strength', 'LongShots', 'Aggression',
       'Interceptions', 'Positioning', 'Vision', 'Penalties', 'Composure',
       'Marking', 'StandingTackle', 'SlidingT

In [None]:
cols_to_drop = ['Unnamed: 0', 'ID', 'Photo', 'Flag', 'Club Logo',
                'LS', 'ST', 'RS', 'LW', 'LF', 'CF', 'RF', 'RW', 'LAM', 'CAM',
                'RAM', 'LM', 'LCM', 'CM', 'RCM', 'RM', 'LWB', 'LDM', 'CDM',
                'RDM', 'RWB', 'LB', 'LCB', 'CB', 'RCB', 'RB']

df_fifa19_clean = df_fifa19.drop(cols_to_drop, axis=1)

In [None]:
df_fifa19.shape, df_fifa19_clean.shape

((18159, 89), (18159, 58))

# 06 Transformación de variables
A veces querremos crear nuevas variables o modificar variables existentes de manera un poco más personalizada/compleja que lo visto hasta ahora. Cómo lo hacemos?

Para cambiar los valores en una columna debemos tratar de evitar iterar sobre las filas del dataframe. Son procesos lentos que llevarán mucho tiempo para dataframes grandes. El orden (atendiendo a la eficiencia computacional) en que debemos intentar las operaciones es:



1.   Vectorización
2.   List comprehensions
3.   Dataframe.[apply()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)
4.   Dataframe.[itertuples()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.itertuples.html), dataframe.[iteritems()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iteritems.html#pandas.DataFrame.iteritems), dataframe.[iterrows()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iterrows.html#pandas.DataFrame.iterrows)



## 0601 Iteracion
Aunque sea el menos eficiente, iterar sobre el dataframe es lo más sencillo conceptualmente. Veamos cómo podemos modificar una variable así.

In [None]:
lista_datos_api = []

for index, row in df_fifa19_clean[0:10].iterrows():


31
33
26
27
27
27
32
31
32
25


In [None]:
for index, row in df_fifa19_clean.head(1).iterrows():
  print('Index: ', index)
  print('Peso: ', row['Weight'])

In [None]:
df_fifa19_clean

Unnamed: 0,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Special,Preferred Foot,...,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause,Weight_kg
0,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,2202,Left,...,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M,72.12
1,Cristiano Ronaldo,33,Portugal,94,94,Juventus,€77M,€405K,2228,Right,...,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M,83.01
2,Neymar Jr,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,2143,Right,...,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M,68.04
3,De Gea,27,Spain,91,93,Manchester United,€72M,€260K,1471,Right,...,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M,76.20
4,K. De Bruyne,27,Belgium,91,92,Manchester City,€102M,€355K,2281,Right,...,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M,69.85
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18202,J. Lundstram,19,England,47,65,Crewe Alexandra,€60K,€1K,1307,Right,...,40.0,48.0,47.0,10.0,13.0,7.0,8.0,9.0,€143K,60.78
18203,N. Christoffersson,19,Sweden,47,63,Trelleborgs FF,€60K,€1K,1098,Right,...,22.0,15.0,19.0,10.0,9.0,9.0,5.0,12.0,€113K,77.11
18204,B. Worman,16,England,47,67,Cambridge United,€60K,€1K,1189,Right,...,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,€165K,67.13
18205,D. Walker-Rice,17,England,47,66,Tranmere Rovers,€60K,€1K,1228,Right,...,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0,€143K,69.85


In [None]:
%%timeit
for index, row in df_fifa19_clean.iterrows():

  # Si el string contine 'lbs' al final del mismo
  if row['Weight'][-3:] == 'lbs':

    # Nos quedamos con la parte anterior (el peso) con formato numérico (float)
    peso_libras = float(row['Weight'][:-3])

    # Convertimos el peso en kgs
    peso_kgs = round(peso_libras*0.453592, 2)

    # Populamos la columna
    df_fifa19_clean.loc[index, 'Weight_kg'] = peso_kgs

  else:
    # Si no contenía 'lbs' al final, lo dejamos como nulo
    df_fifa19_clean.loc[index, 'Weight_kg'] = np.NaN

2.71 s ± 232 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
df_fifa19_clean.head()

In [None]:
df_fifa19_clean['Weight_kg'].isna().sum()

0

## 0602 Dataframe.apply()
La siguiente opción en eficiencia es utilizar el método [.apply()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html). Más información sobre [cómo crear funciones para aplicar sobre un dataframe con .apply()](https://queirozf.com/entries/pandas-dataframes-apply-examples).

Veamos cómo podemos modificar una variable así.

In [None]:
def limpiar_peso(valor_original):
  """
  Función que limpia la columna Weight al convertirla en formato númerico
  y definir los valores en Kg
  """
  # Si el string contine 'lbs' al final del mismo
  if valor_original[-3:] == 'lbs':

    # Nos quedamos con la parte anterior (el peso) con formato numérico (float)
    peso_libras = float(valor_original[:-3])

    # Convertimos el peso en kgs
    peso_kgs = peso_libras*0.453592

  else:
    # Si no contenía 'lbs' al final, lo dejamos como nulo
    peso_kgs = np.NaN

  return peso_kgs

In [None]:
df_fifa19_clean

Unnamed: 0,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Special,Preferred Foot,...,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause,Weight_kg
0,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,2202,Left,...,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M,159lbs159lbs159lbs159lbs159lbs159lbs159lbs159l...
1,Cristiano Ronaldo,33,Portugal,94,94,Juventus,€77M,€405K,2228,Right,...,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M,183lbs183lbs183lbs183lbs183lbs183lbs183lbs183l...
2,Neymar Jr,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,2143,Right,...,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M,150lbs150lbs150lbs150lbs150lbs150lbs150lbs150l...
3,De Gea,27,Spain,91,93,Manchester United,€72M,€260K,1471,Right,...,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M,168lbs168lbs168lbs168lbs168lbs168lbs168lbs168l...
4,K. De Bruyne,27,Belgium,91,92,Manchester City,€102M,€355K,2281,Right,...,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M,154lbs154lbs154lbs154lbs154lbs154lbs154lbs154l...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18202,J. Lundstram,19,England,47,65,Crewe Alexandra,€60K,€1K,1307,Right,...,40.0,48.0,47.0,10.0,13.0,7.0,8.0,9.0,€143K,134lbs134lbs134lbs134lbs134lbs134lbs134lbs134l...
18203,N. Christoffersson,19,Sweden,47,63,Trelleborgs FF,€60K,€1K,1098,Right,...,22.0,15.0,19.0,10.0,9.0,9.0,5.0,12.0,€113K,170lbs170lbs170lbs170lbs170lbs170lbs170lbs170l...
18204,B. Worman,16,England,47,67,Cambridge United,€60K,€1K,1189,Right,...,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,€165K,148lbs148lbs148lbs148lbs148lbs148lbs148lbs148l...
18205,D. Walker-Rice,17,England,47,66,Tranmere Rovers,€60K,€1K,1228,Right,...,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0,€143K,154lbs154lbs154lbs154lbs154lbs154lbs154lbs154l...


In [None]:
%%timeit
df_fifa19_clean['Weight_kg'] = df_fifa19_clean['Weight'].apply(limpiar_peso)

8.63 ms ± 3.47 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
df_fifa19_clean.head()

Unnamed: 0,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Special,Preferred Foot,...,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause,Weight_kg
0,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,2202,Left,...,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M,72.121128
1,Cristiano Ronaldo,33,Portugal,94,94,Juventus,€77M,€405K,2228,Right,...,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M,83.007336
2,Neymar Jr,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,2143,Right,...,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M,68.0388
3,De Gea,27,Spain,91,93,Manchester United,€72M,€260K,1471,Right,...,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M,76.203456
4,K. De Bruyne,27,Belgium,91,92,Manchester City,€102M,€355K,2281,Right,...,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M,69.853168


## 0603 List Comprehensions
Método conciso y eficiente de crear listas. [Info extra sobre cuándo y por qué usar list comprehensions.](https://realpython.com/list-comprehension-python/#benefits-of-using-list-comprehensions)

Las list comprehensions utilizan la sintaxis:
*   [expression for item in list]

O si incluímos condiciones:

*   [expression if condicion else expresion for item in list]

Veamos cómo podemos modificar una variable utilizando list comprehensions.

In [None]:
# [expresion for item in list]

In [None]:
[x for x in df_fifa19_clean['Weight']][:5]

['159lbs', '183lbs', '150lbs', '168lbs', '154lbs']

In [None]:
["pepe", "lucia", "fer"][0:2]

['pepe', 'lucia']

In [None]:
[float(x[:-3])*0.453592 for x in df_fifa19_clean['Weight']][:5]

In [None]:
[float(x[:-3])*0.453592 if x[-3:]=='lbs' else np.NaN for x in df_fifa19_clean['Weight']][:5]

In [None]:
%%timeit
df_fifa19_clean['Weight_kg'] = [float(x[:-3])*0.453592 if x[-3:]=='lbs' else np.NaN for x in df_fifa19_clean['Weight']]

6.6 ms ± 70.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
df_fifa19_clean.head()

Unnamed: 0,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Special,Preferred Foot,...,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause,Weight_kg
0,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,2202,Left,...,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M,72.121128
1,Cristiano Ronaldo,33,Portugal,94,94,Juventus,€77M,€405K,2228,Right,...,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M,83.007336
2,Neymar Jr,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,2143,Right,...,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M,68.0388
3,De Gea,27,Spain,91,93,Manchester United,€72M,€260K,1471,Right,...,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M,76.203456
4,K. De Bruyne,27,Belgium,91,92,Manchester City,€102M,€355K,2281,Right,...,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M,69.853168


## 0604 Vectorización
Consiste en realizar operaciones con vectores en la medida de lo posible en lugar de elemento por elemento. [Más información sobre vectorización aquí](https://stackoverflow.com/questions/1422149/what-is-vectorization).

In [None]:
# Vectorizamos la función que habíamos creado
limpiar_peso_vectorizada = np.vectorize(limpiar_peso)

In [None]:
%%timeit
df_fifa19_clean['Weight_kg'] = limpiar_peso_vectorizada(np.array(df_fifa19_clean['Weight']))

5.67 ms ± 76.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
df_fifa19_clean.head()

## 0605 EJEMPLO 8: Limpieza de columnas con precios
Las columnas ['Value', 'Wage', 'Release Clasue'] continen valores monetarios en formatos un poco extraños: son strings, con el tipo de moneda antecediendo a la cifra, que contiene abreviaturas tipo M, K para indicar millones, miles, etc.

Limpiemos estas columnas utilizando las distintas formas que hemos aprendido:

### 060501 Exploramos las columnas
Para entender el formato.

In [None]:
# Primero echamos un ojo a las columnas
df_fifa19_clean[['Value','Wage','Release Clause']].head()

Unnamed: 0,Value,Wage,Release Clause
0,€110.5M,€565K,€226.5M
1,€77M,€405K,€127.1M
2,€118.5M,€290K,€228.1M
3,€72M,€260K,€138.6M
4,€102M,€355K,€196.4M


In [None]:
# Contienen nulos?
df_fifa19_clean[['Value','Wage','Release Clause']].isna().sum()

Value                0
Wage                 0
Release Clause    1516
dtype: int64

In [None]:
# Release Clause sí tiene nulos: los rellenamos con un formato similar
df_fifa19_clean['Release Clause'] = df_fifa19_clean['Release Clause'].fillna('€0M')

In [None]:
# Todos los valores empiezan por el string '€'?
for columna in ['Value','Wage','Release Clause']:
  lista_valores = [x[:1] for x in df_fifa19_clean[columna]]
  lista_sin_duplicados = list(set(lista_valores))
  print('En la columna ' + columna + ' los valores empiezan por ', lista_sin_duplicados)

En la columna Value los valores empiezan por  ['€']
En la columna Wage los valores empiezan por  ['€']
En la columna Release Clause los valores empiezan por  ['€']


In [None]:
# Todos los valores acaban por el string 'M'?
for columna in ['Value','Wage','Release Clause']:
  lista_valores = [x[-1:] for x in df_fifa19_clean[columna]]
  lista_sin_duplicados = list(set(lista_valores))
  print('En la columna ' + columna + ' los valores acaban por ', lista_sin_duplicados)

En la columna Value los valores acaban por  ['K', 'M', '0']
En la columna Wage los valores acaban por  ['K', '0']
En la columna Release Clause los valores acaban por  ['K', 'M']


### 060502 Iteración
Usamos primero el menos eficiente de los métodos, la iteración sobre las filas del dataframe.

In [None]:
for index, row in df_fifa19_clean.loc[:3,['Value','Wage','Release Clause']].iterrows():
  print(index)
  print(row)

In [None]:
def limpieza_cols_dinero(valor_original):
  """
  Esta función convierte los valores originales de ['Value','Wage','Release Clause']
  en valores numéricos en €.
  """
  if valor_original[-1]=='M':
    valor_final = float(valor_original[1:-1])*1000000
  elif valor_original[-1]=='K':
    valor_final = float(valor_original[1:-1])*1000
  else:
    valor_final = float(valor_original[1:])

  return valor_final

In [None]:
%%timeit
for index, row in df_fifa19_clean.iterrows():

  for columna in ['Value','Wage','Release Clause']:
    valor_orig = row[columna]
    df_fifa19_clean.loc[index, columna+'_€'] = limpieza_cols_dinero(valor_orig)

6.22 s ± 268 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


### 060503 Dataframe.apply()

In [None]:
%%timeit
for columna in ['Value','Wage','Release Clause']:
  df_fifa19_clean[columna+'_€'] = df_fifa19_clean[columna].apply(limpieza_cols_dinero)

34.3 ms ± 737 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


### 060503 Vectorización

In [None]:
limpieza_cols_dinero_vectorizada = np.vectorize(limpieza_cols_dinero)

In [None]:
%%timeit
for columna in ['Value','Wage','Release Clause']:
  df_fifa19_clean[columna+'_€'] = limpieza_cols_dinero_vectorizada(np.array(df_fifa19_clean[columna]))

17.9 ms ± 2.49 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


## 0606 EJERCICIO 2: Limpieza variable altura
La variable de altura de los jugadores: 'Height' está expresada en formato string y con pies y pulgadas como unidades.

Crea la variable 'Height_cm' que contenga la altura de los jugadores en formato numérico (float) y con cm como unidades.

Para este ejercicio te vendrá bien la función [.split()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.split.html).

In [None]:
'2023-10-11'.split("-")

['2023', '10', '11']

In [None]:
# Lee la documentación de la  función split() y prueba estas ejecuciones
string_de_prueba = 'izq.derecha'

display(string_de_prueba.split('.'))

display(string_de_prueba.split('.')[0])

display(string_de_prueba.split('.')[1])

['izq', 'derecha']

'izq'

'derecha'

In [None]:
# Explora la columna, hay alguna que no contenga el separador "'"?
[x for x in df_fifa19_clean['Height'] if "'" not in x]

[]

In [None]:
# Define la función que pasará al altura de un string de pies'pulgadas
# al valor numérico (float) de la altura en cm

def limpieza_altura(altura_original):
  """
  A partir de un string con la altura en formato: pies'pulgadas
  devuelve un float de la altura en cm.
  """
  pies = float(altura_original.split("'")[0])
  pulgadas = float(altura_original.split("'")[1])
  altura_cm = (12*pies+pulgadas)*2.54
  return altura_cm

In [None]:
## Iteración
%%timeit
for index, row in df_fifa19_clean.iterrows():
  df_fifa19_clean.loc[index, 'Height_cm'] = limpieza_altura(row['Height'])

3.41 s ± 1.14 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
## Datafrane.apply()
%%timeit
df_fifa19_clean['Height_cm'] = df_fifa19_clean['Height'].apply(limpieza_altura)

9.8 ms ± 1.5 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
## Vectorización
limpieza_vectorizada = np.vectorize(limpieza_altura)

In [None]:
df_fifa19_clean["Height_cm"]

0        170.18
1        187.96
2        175.26
3        193.04
4        180.34
          ...  
18202    175.26
18203    190.50
18204    172.72
18205    177.80
18206    177.80
Name: Height_cm, Length: 18159, dtype: float64

In [None]:
%%timeit
df_fifa19_clean['Height_cm'] = limpieza_vectorizada(np.array(df_fifa19_clean['Height']))

10.7 ms ± 3.2 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 0607 Creación de nuevas variables
Además de los métodos de transformación que hemos visto, existen otros propios de las distintas clases que nos permiten también generar variables nuevas.

Por ejemplo, los métodos propios de los formatos de fechas:

### 060701 Métodos propios de timedate

In [None]:
# Nueva variable año
df_sp500['Year'] = df_sp500['Date'].dt.year
df_sp500.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,year,month,Year
0,1927-12-30,17.66,17.66,17.66,17.66,17.66,0,1927,12,1927
1,1928-01-03,17.76,17.76,17.76,17.76,17.76,0,1928,1,1928
2,1928-01-04,17.719999,17.719999,17.719999,17.719999,17.719999,0,1928,1,1928
3,1928-01-05,17.549999,17.549999,17.549999,17.549999,17.549999,0,1928,1,1928
4,1928-01-06,17.66,17.66,17.66,17.66,17.66,0,1928,1,1928


In [None]:
# Nueva variable día de la semana
df_sp500['Day of Week'] = df_sp500['Date'].dt.dayofweek
df_sp500.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,year,month,Year,Day of Week
0,1927-12-30,17.66,17.66,17.66,17.66,17.66,0,1927,12,1927,4
1,1928-01-03,17.76,17.76,17.76,17.76,17.76,0,1928,1,1928,1
2,1928-01-04,17.719999,17.719999,17.719999,17.719999,17.719999,0,1928,1,1928,2
3,1928-01-05,17.549999,17.549999,17.549999,17.549999,17.549999,0,1928,1,1928,3
4,1928-01-06,17.66,17.66,17.66,17.66,17.66,0,1928,1,1928,4


### 060702 Operaciones con columnas

In [None]:
# Nueva variable volatilidad diaria
df_sp500['Volatilidad Diaria'] = (df_sp500['High']-df_sp500['Low'])/df_sp500['Close']
df_sp500.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,year,month,Year,Day of Week,Volatilidad Diaria
0,1927-12-30,17.66,17.66,17.66,17.66,17.66,0,1927,12,1927,4,0.0
1,1928-01-03,17.76,17.76,17.76,17.76,17.76,0,1928,1,1928,1,0.0
2,1928-01-04,17.719999,17.719999,17.719999,17.719999,17.719999,0,1928,1,1928,2,0.0
3,1928-01-05,17.549999,17.549999,17.549999,17.549999,17.549999,0,1928,1,1928,3,0.0
4,1928-01-06,17.66,17.66,17.66,17.66,17.66,0,1928,1,1928,4,0.0


In [None]:
df_sp500.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,year,month,Year,Day of Week,Volatilidad Diaria
23318,2020-10-29,3277.169922,3341.050049,3259.820068,3310.110107,3310.110107,4903070000,2020,10,2020,3,0.02454
23319,2020-10-30,3293.590088,3304.929932,3233.939941,3269.959961,3269.959961,4840450000,2020,10,2020,4,0.02171
23320,2020-11-02,3296.199951,3330.139893,3279.73999,3310.23999,3310.23999,4310590000,2020,11,2020,0,0.015225
23321,2020-11-03,3336.25,3389.48999,3336.25,3369.159912,3369.159912,4220070000,2020,11,2020,1,0.015802
23322,2020-11-04,3406.459961,3486.25,3405.169922,3443.439941,3443.439941,4783040000,2020,11,2020,2,0.023546


### 060703 Variables dummy
Variables binarias que adoptan un 1 si se cumple cierta condición.

In [None]:
filtro_movilidad_diaria_disponible = df_sp500['High'] != df_sp500['Low']
filtro_movilidad_diaria_disponible

0        False
1        False
2        False
3        False
4        False
         ...  
23318     True
23319     True
23320     True
23321     True
23322     True
Length: 23323, dtype: bool

In [None]:
# Nueva variable movilidad diaria disponible
df_sp500['Dummy Movilidad'] = filtro_movilidad_diaria_disponible.astype(int)
df_sp500['Dummy Movilidad']

0        0
1        0
2        0
3        0
4        0
        ..
23318    1
23319    1
23320    1
23321    1
23322    1
Name: Dummy Movilidad, Length: 23323, dtype: int64

### 060704 Operaciones de ventana
A veces queremos realizar operaciones entre distintas filas. Por ejemplo:


*   Comparar un valor hoy con el correspondiente ayer (ver método [.shift()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shift.html))
*   Calcular un estadístico respecto a los n últimos registros (ver método [.rolling()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rolling.html))


In [None]:
df_sp500['Close'][:3]

0    17.660000
1    17.760000
2    17.719999
Name: Close, dtype: float64

In [None]:
df_sp500['Close'].shift(1)[:3]

0      NaN
1    17.66
2    17.76
Name: Close, dtype: float64

In [None]:
# Variación respecto a ayer
df_sp500['Variacion'] = df_sp500['Close']/df_sp500['Close'].shift(1)

In [None]:
df_sp500['Variacion'].head()

0         NaN
1    1.005663
2    0.997748
3    0.990406
4    1.006268
Name: Variacion, dtype: float64

In [None]:
# Variación media ultimos n días
df_sp500['Variacion ult7'] = df_sp500['Variacion'].rolling(7).mean()

In [None]:
# También podemos crear nuestra propia función
df_sp500['Variacion ac ult 250'] = df_sp500['Variacion'].rolling(7).agg(lambda x:x.prod())

In [None]:
df_sp500.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,year,month,Year,Day of Week,Volatilidad Diaria,Dummy Movilidad,Variacion,Variacion ult7,Variacion ac ult 250
23318,2020-10-29,3277.169922,3341.050049,3259.820068,3310.110107,3310.110107,4903070000,2020,10,2020,3,0.02454,1,1.011947,0.994502,0.961369
23319,2020-10-30,3293.590088,3304.929932,3233.939941,3269.959961,3269.959961,4840450000,2020,10,2020,4,0.02171,1,0.98787,0.993083,0.951798
23320,2020-11-02,3296.199951,3330.139893,3279.73999,3310.23999,3310.23999,4310590000,2020,11,2020,0,0.015225,1,1.012318,0.994097,0.95852
23321,2020-11-03,3336.25,3389.48999,3336.25,3369.159912,3369.159912,4220070000,2020,11,2020,1,0.015802,1,1.017799,0.996147,0.972231
23322,2020-11-04,3406.459961,3486.25,3405.169922,3443.439941,3443.439941,4783040000,2020,11,2020,2,0.023546,1,1.022047,1.001953,1.012488


## 0608 Guardamos la tabla
Hemos realizado cierto trabajo para limpiar el dataframe de los jugadores del fifa. Para no tener que repetirlo en el futuro, podemos guardar la tabla modificada y cargar ésta en adelante.

In [None]:
# Lo más sencillo es guardar el archivo en el Drive Personal
drive.mount('/content/drive')
df_fifa19_clean.to_csv(f"/content/drive/My Drive/Data/Clases/Fifa19_Clean.csv", sep=",", index=False)

# 07 Distribución de variables
Hasta ahora hemos importado el dataset, nos hemos familiarizado con sus características principales, hemos identificado y limpiado los nulos y hemos transformado algunas variables para crear otras con más sentido.

Veamos ahora cuál es la [distribución](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_probabilidad) de cada variable.

In [None]:
# Importamos df_fifa19_clean para asegurar haber realizado las transformaciones correctamente
# url de archivo raw de df_fifa19_clean
url = 'https://raw.githubusercontent.com/JotaBlanco/TheValley/main/Data/Fifa19_Clean.csv'

# carga el archivo en un dataframe df_covid
df_fifa19_clean = pd.read_csv(url)

df_fifa19_clean.head()

Unnamed: 0,Name,Age,Nationality,Overall,Potential,Club,Value,Wage,Special,Preferred Foot,...,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause,Weight_kg,Value_€,Wage_€,Release Clause_€,Height_cm
0,L. Messi,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,2202,Left,...,11.0,15.0,14.0,8.0,€226.5M,72.121128,110500000.0,565000.0,226500000.0,170.18
1,Cristiano Ronaldo,33,Portugal,94,94,Juventus,€77M,€405K,2228,Right,...,11.0,15.0,14.0,11.0,€127.1M,83.007336,77000000.0,405000.0,127100000.0,187.96
2,Neymar Jr,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,2143,Right,...,9.0,15.0,15.0,11.0,€228.1M,68.0388,118500000.0,290000.0,228100000.0,175.26
3,De Gea,27,Spain,91,93,Manchester United,€72M,€260K,1471,Right,...,85.0,87.0,88.0,94.0,€138.6M,76.203456,72000000.0,260000.0,138600000.0,193.04
4,K. De Bruyne,27,Belgium,91,92,Manchester City,€102M,€355K,2281,Right,...,13.0,5.0,10.0,13.0,€196.4M,69.853168,102000000.0,355000.0,196400000.0,180.34


## 0701 Variables numéricas
En cuanto a las variables de tipo numérico, el método dataframe.[describe()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) es muy útil para conocer sus estadísticos principales.

In [None]:
df_fifa19_clean.describe()

Unnamed: 0,Age,Overall,Potential,Special,International Reputation,Weak Foot,Skill Moves,Jersey Number,Crossing,Finishing,...,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Weight_kg,Value_€,Wage_€,Release Clause_€,Height_cm
count,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,...,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0,18159.0
mean,25.122529,66.249904,71.319126,1597.903959,1.113222,2.947299,2.361308,19.544413,49.734181,45.550911,...,16.616223,16.391596,16.232061,16.388898,16.710887,75.286805,2416131.0,9752.574481,4202278.0,181.257584
std,4.670568,6.914613,6.13442,272.86227,0.394031,0.660456,0.756164,15.942629,18.364524,19.52582,...,17.695349,16.9069,16.502864,17.034669,17.955119,7.073016,5601319.0,22024.397597,10719750.0,6.730145
min,16.0,46.0,48.0,731.0,1.0,1.0,1.0,1.0,5.0,2.0,...,1.0,1.0,1.0,1.0,1.0,49.89512,0.0,0.0,0.0,154.94
25%,21.0,62.0,67.0,1457.0,1.0,3.0,2.0,8.0,38.0,30.0,...,8.0,8.0,8.0,8.0,8.0,69.853168,300000.0,1000.0,396000.0,175.26
50%,25.0,66.0,71.0,1635.0,1.0,3.0,2.0,17.0,54.0,49.0,...,11.0,11.0,11.0,11.0,11.0,74.84268,675000.0,3000.0,1000000.0,180.34
75%,28.0,71.0,75.0,1787.0,1.0,3.0,3.0,26.0,64.0,62.0,...,14.0,14.0,14.0,14.0,14.0,79.832192,2000000.0,9000.0,3000000.0,185.42
max,45.0,94.0,95.0,2346.0,5.0,5.0,5.0,99.0,93.0,95.0,...,90.0,92.0,91.0,90.0,94.0,110.222856,118500000.0,565000.0,228100000.0,205.74


## 0702 Variables categóricas
Aquellas que pueden adoptar valores finitos. Es muy útil el método dataframe[columna].[value_counts()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html).

In [None]:
df_fifa19_clean['Nationality'].value_counts()

England                 1657
Germany                 1195
Spain                   1071
Argentina                936
France                   911
                        ... 
New Caledonia              1
Fiji                       1
São Tomé & Príncipe        1
United Arab Emirates       1
Botswana                   1
Name: Nationality, Length: 164, dtype: int64

In [None]:
df_fifa19_clean['Preferred Foot'].value_counts()

Right    13948
Left      4211
Name: Preferred Foot, dtype: int64

El método dataframe[columna].[unique()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.unique.html) puede resultar útil también.

In [None]:
df_fifa19_clean['Nationality'].unique()

array(['Argentina', 'Portugal', 'Brazil', 'Spain', 'Belgium', 'Croatia',
       'Uruguay', 'Slovenia', 'Poland', 'Germany', 'France', 'England',
       'Italy', 'Egypt', 'Colombia', 'Denmark', 'Gabon', 'Wales',
       'Senegal', 'Costa Rica', 'Slovakia', 'Netherlands',
       'Bosnia Herzegovina', 'Morocco', 'Serbia', 'Algeria', 'Austria',
       'Greece', 'Chile', 'Sweden', 'Korea Republic', 'Finland', 'Guinea',
       'Montenegro', 'Armenia', 'Switzerland', 'Norway', 'Czech Republic',
       'Scotland', 'Ghana', 'Central African Rep.', 'DR Congo',
       'Ivory Coast', 'Russia', 'Ukraine', 'Iceland', 'Mexico', 'Jamaica',
       'Albania', 'Venezuela', 'Japan', 'Turkey', 'Ecuador', 'Paraguay',
       'Mali', 'Nigeria', 'Cameroon', 'Dominican Republic', 'Israel',
       'Kenya', 'Hungary', 'Republic of Ireland', 'Romania',
       'United States', 'Cape Verde', 'Australia', 'Peru', 'Togo',
       'Syria', 'Zimbabwe', 'Angola', 'Burkina Faso', 'Iran', 'Estonia',
       'Tunisia', 'Equato

In [None]:
df_fifa19_clean.head()

## 0703 Distribuciones respecto a otras
A veces nos interesa entender la distribución de una variable respecto a otra. Para esto suele ser muy útil la operación [groupby()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html).

Por ejemplo, son mejores los zurdos de media? Es verdad que los jugadores españoles tienden a ser pequeñitos comparados con otras nacionalidades?

In [None]:
# Son de media mejores los zurdos?
df_fifa19_clean.groupby('Preferred Foot')['Overall'].mean().reset_index()

Unnamed: 0,Preferred Foot,Overall
0,Left,66.801472
1,Right,66.083381


In [None]:
# Son de media mejores los zurdos?
df_fifa19_clean.groupby('Preferred Foot')['Overall'].quantile(.25).reset_index()

Unnamed: 0,Preferred Foot,Overall
0,Left,63.0
1,Right,62.0


In [None]:
# Cuales son los paises con jugadores más grandes y pesados (y menos)?
df_fifa19_clean.groupby('Nationality')[['Height_cm','Weight_kg']].mean().reset_index().sort_values(['Height_cm','Weight_kg'], ascending=False).head(20)

Unnamed: 0,Nationality,Height_cm,Weight_kg
138,South Sudan,200.66,84.821704
88,Kuwait,195.58,73.028312
116,Oman,193.04,92.98636
89,Latvia,190.5,87.014065
27,Central African Rep.,187.96,82.251349
90,Lebanon,187.96,79.832192
64,Guatemala,187.96,77.866627
102,Moldova,186.944,77.292077
121,Philippines,186.69,83.007336
52,Faroe Islands,186.266667,81.495363


In [None]:
df_sp500.groupby('Year')['Close'].mean().reset_index()

Unnamed: 0,Year,Close
0,1927,17.660000
1,1928,19.937200
2,1929,26.123936
3,1930,21.033626
4,1931,13.631071
...,...,...
89,2016,2094.651264
90,2017,2449.076379
91,2018,2746.214183
92,2019,2913.356380
