# Práctica Clase 4

## Biblioteca Pandas


## Introducción

* Las filas y columnas están identificados con etiquetas, además de simples índices enteros
* Es importante entender un poco de las estructuras de Pandas
* Tres estructuras importantes:
    + `Series`
    + `DataFrame`
    + `Index`

In [84]:
import numpy as np
import pandas as pd

## Objetos `Series` en Pandas

* Puede pensarse como una array de una sola dimensión indexado. 
* Puede ser creado desde una lista:

In [85]:
data = pd.Series([0.25, 0.5, 0.75, 1.0, 1.3])
data

0    0.25
1    0.50
2    0.75
3    1.00
4    1.30
dtype: float64

* Una ``Series`` encapsula tanto una secuencia de valores como una de índices.
* Podemos acceder a ellos con los atributos `values` e `index`

In [86]:
data.values

array([0.25, 0.5 , 0.75, 1.  , 1.3 ])

* Un `index` es un objeto similar a un array.

In [87]:
data.index

RangeIndex(start=0, stop=5, step=1)

* Podemos acceder a una `Series` a través del índice asociado de forma similar a los arrays de Numpy: con los `[]` 


In [88]:
data[1]

np.float64(0.5)

In [89]:
data[2:]

2    0.75
3    1.00
4    1.30
dtype: float64

### ``Series`` como generalización de un array de  NumPy 

* La diferencia esencial con un array de Numpy es que mientras que el array tiene un índice entero *"implícitamente definido"*, una `Series` de Pandas tiene un índice asociado a los valores *que está definido de forma explícita*
* Este índice explícito le da a una `Series` capacidades adicionales.
* El índice explícito no tiene por qué ser un entero y tampoco todos sus valores tienen que ser necesariamente únicos.

* Pueden ser `strings` 

In [90]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [91]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

* Y podemos acceder simplemente:

In [92]:
data['b']

np.float64(0.5)

* O puede ser una secuencia no contigua de `int`s

In [93]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 1])
data

2    0.25
5    0.50
3    0.75
1    1.00
dtype: float64

In [94]:
data[5]

np.float64(0.5)

### ``Series`` como un `dict` especializado

* Un `dict` es una estructura que mapea un set de keys arbitrarias a un set de valores de un tipo.
* Puede hacerse, entonces, una analogía entre una `Series` y un `dict`

In [95]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [96]:
population.values

array([38332521, 26448193, 19651127, 19552860, 12882135])

In [97]:
population.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

* Puede crearse una `Series` a partir de un `dict`: el índice se toma de las keys.
* Así, puede accederse de forma análoga a un `dict`.

In [98]:
population['California']

np.int64(38332521)

* A diferencia de un `dict` una `Series` soporta algunas operaciones del estilo de un array, como por ejemplo, slicing:

In [99]:
population['California':'New York']

California    38332521
Texas         26448193
New York      19651127
dtype: int64

* Si creamos una `Series` con una lista de strings se respeta el orden de las columnas, mientras que las claves de los `dicts` se ordenan alfabéticamente al crearse la `Series`

In [100]:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
states = pd.Series(states_pop, index= states_list)

In [101]:
states['Illinois':'New York']

Illinois    12882135
Texas       26448193
New York    19651127
dtype: int64

### Construyendo objetos Series

* Podemos construir `Series` desde cero. La forma general de hacerlo es la siguiente:

```python
>>> pd.Series(data, index=index)
```
* `index` es un argumento opcional y `data` puede ser varias cosas

In [102]:
# Una lista o un array de Numpy
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

In [103]:
# Un escalar repetido a lo largo de un índice
pd.Series(5, index = [100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [104]:
# Un diccionario
pd.Series({2:'a', 1:'b', 3:'c'}) 

2    a
1    b
3    c
dtype: object

In [105]:
# En cada caso, podría usarse el índice explícitamente si lo que se busca es otro resultado
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2]) 

3    c
2    a
dtype: object

## Objeto `DataFrame`

* Otra estructura fundamental. 
* También puede ser pensada como una generalización de un array de NumPy o como un tipo especial de diccionario.

### `DataFrame` como un array de Numpy

* Un `DataFrame` es un tipo análogo a una `Series` en dos dimensiones y, por lo tanto, puede ser una pensado tanto como una generalización de un array de Numpy o como un conjunto de `Series` alineados. Es decir, que tienen el mismo índice.

* Para demostrar esto generemos una `Serie` con el área de algunos estados:

In [106]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': np.nan}
area = pd.Series(area_dict)
area

California    423967.0
Texas         695662.0
New York      141297.0
Florida       170312.0
Illinois           NaN
dtype: float64

In [107]:
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

* Ahora, podemos usar un diccionario para construir un objeto bidimensional conteniendo toda la información.

In [108]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967.0
Texas,26448193,695662.0
New York,19651127,141297.0
Florida,19552860,170312.0
Illinois,12882135,


Al igual que las ``Series``, un ``DataFrame`` posee un atributo ``index``:

In [109]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Además, tiene un atributo ``columns``, que es un objeto ``Index`` conteniendo las etiquetas de columnas:

In [110]:
states.columns

Index(['population', 'area'], dtype='object')

In [111]:
states['population']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: population, dtype: int64

In [112]:
states

Unnamed: 0,population,area
California,38332521,423967.0
Texas,26448193,695662.0
New York,19651127,141297.0
Florida,19552860,170312.0
Illinois,12882135,


In [113]:
states['density'] = states['population'] / states['area']
states

Unnamed: 0,population,area,density
California,38332521,423967.0,90.413926
Texas,26448193,695662.0,38.01874
New York,19651127,141297.0,139.076746
Florida,19552860,170312.0,114.806121
Illinois,12882135,,


### DataFrame como un diccionario especializado

* De forma similar, podemos pensar al `DataFrame` como un diccionario: 
    
    - Un diccionario mapea una key con un valor
    - Un `DataFrame` mapea un nombre de columna con una `Series` de datos.
    
    
* Por ejemplo, pedir el atributo `area` del `DataFrame` `states` devuelve una `Series`. 

In [114]:
states['area']

California    423967.0
Texas         695662.0
New York      141297.0
Florida       170312.0
Illinois           NaN
Name: area, dtype: float64

### Construyendo objetos `DataFrame`

#### Desde una `Series` simple:

In [115]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### Desde una lista de dicts

In [116]:
data = [{'a': i, 'b': 2 * i}
        for i in range(10)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8
5,5,10
6,6,12
7,7,14
8,8,16
9,9,18


* Notar que incluso si alguna key está perdida en el diccionario, Pandas llena con `NaN` el valor:

In [117]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### De un dict de `Series`

In [118]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967.0
Texas,26448193,695662.0
New York,19651127,141297.0
Florida,19552860,170312.0
Illinois,12882135,


#### Desde un array Numpy de dos dimensiones

In [119]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.034691,0.153977
b,0.246543,0.561016
c,0.818092,0.283515


## El objeto `Index`

* Un `Index` puede ser pensado como un _array inmutable_  o como un set ordenado
* Para ilustrar las implicancias de este punto pensemos en el siguiente ejemplo en el que construimos un `Index` desde una lista de enteros.
* Los `DataFrames` tienen un `Index` que describe a las filas y otro que describe a las columnas. 
* Al  `Index` de filas se accede con `df.index` y al de columna `df.columns`.

In [120]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

### `Index` como una array inmutable

* Podemos indexar y hacer slicing de forma similar a un array

In [121]:
ind[1]

np.int64(3)

In [122]:
ind[::2]

Index([2, 5, 11], dtype='int64')

Los `Index` tienen atributos similares a los arrays de Numpy

In [123]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Una diferencia entre los ``Index`` y los arrays de NumPy es que los primeros son *inmutables*:

In [124]:
ind[1] = 0

TypeError: Index does not support mutable operations

### `Index` como un set ordenado

* Se pueden utilizar operaciones de conjuntos con los ``Index`` siguiendo las convenciones de Python

In [126]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [127]:
indA & indB  # intersection

Index([0, 3, 5, 7, 9], dtype='int64')

In [128]:
indA | indB  # union

Index([3, 3, 5, 7, 11], dtype='int64')

In [129]:
indA ^ indB  # symmetric difference

Index([3, 0, 0, 0, 2], dtype='int64')

### Series y DataFrames

In [130]:
import pandas as pd

In [131]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [132]:
animales = ['Tortuga', 'Zorro', 'Paloma', 'Elefante']
tipo = ['reptil', 'mamífero', 'ave', 'mamífero']
obj = pd.Series(tipo, index=animales)
obj

Tortuga       reptil
Zorro       mamífero
Paloma           ave
Elefante    mamífero
dtype: object

DataFrames

In [133]:
d = {'tipo_vivienda': ['casa', 'departamento'], 'm2': [35, 49]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,tipo_vivienda,m2
0,casa,35
1,departamento,49


### Cargando datos

In [134]:
df = pd.read_csv('fifa-statistics.csv')
df

Unnamed: 0,Date,Team,Opponent,Goal Scored,Ball Possession %,Attempts,On-Target,Off-Target,Blocked,Corners,...,Yellow Card,Yellow & Red,Red,Man of the Match,1st Goal,Round,PSO,Goals in PSO,Own goals,Own goal Time
0,14-06-2018,Russia,Saudi Arabia,5,40,13,7,3,3,6,...,0,0,0,Yes,12.0,Group Stage,No,0,,
1,14-06-2018,Saudi Arabia,Russia,0,60,6,0,3,3,2,...,0,0,0,No,,Group Stage,No,0,,
2,15-06-2018,Egypt,Uruguay,0,43,8,3,3,2,0,...,2,0,0,No,,Group Stage,No,0,,
3,15-06-2018,Uruguay,Egypt,1,57,14,4,6,4,5,...,0,0,0,Yes,89.0,Group Stage,No,0,,
4,15-06-2018,Morocco,Iran,0,64,13,3,6,4,5,...,1,0,0,No,,Group Stage,No,0,1.0,90.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
123,11-07-2018,England,Croatia,1,46,11,1,6,4,4,...,1,0,0,No,5.0,Semi- Finals,No,0,,
124,14-07-2018,Belgium,England,2,43,12,4,3,5,4,...,1,0,0,Yes,4.0,3rd Place,No,0,,
125,14-07-2018,England,Belgium,0,57,15,5,7,3,5,...,2,0,0,No,,3rd Place,No,0,,
126,15-07-2018,France,Croatia,4,39,8,6,1,1,2,...,2,0,0,Yes,18.0,Final,No,0,1.0,18.0


## Selección e Indexing

### loc e iloc

In [135]:
df.loc[0, 'Team']

'Russia'

In [136]:
df.iloc[0, [1]]

Team    Russia
Name: 0, dtype: object

In [137]:
df.iloc[2]

Date                       15-06-2018
Team                            Egypt
Opponent                      Uruguay
Goal Scored                         0
Ball Possession %                  43
Attempts                            8
On-Target                           3
Off-Target                          3
Blocked                             2
Corners                             0
Offsides                            1
Free Kicks                          7
Saves                               3
Pass Accuracy %                    78
Passes                            395
Distance Covered (Kms)            112
Fouls Committed                    12
Yellow Card                         2
Yellow & Red                        0
Red                                 0
Man of the Match                   No
1st Goal                          NaN
Round                     Group Stage
PSO                                No
Goals in PSO                        0
Own goals                         NaN
Own goal Tim

## Análisis descriptivo en Pandas

### describe, info y shape

In [138]:
df.describe()

Unnamed: 0,Goal Scored,Ball Possession %,Attempts,On-Target,Off-Target,Blocked,Corners,Offsides,Free Kicks,Saves,...,Passes,Distance Covered (Kms),Fouls Committed,Yellow Card,Yellow & Red,Red,1st Goal,Goals in PSO,Own goals,Own goal Time
count,128.0,128.0,128.0,128.0,128.0,128.0,128.0,128.0,128.0,128.0,...,128.0,128.0,128.0,128.0,128.0,128.0,94.0,128.0,12.0,12.0
mean,1.320312,49.992188,12.59375,3.914062,5.273438,3.359375,4.71875,1.34375,14.890625,2.726562,...,462.648438,106.664062,13.546875,1.695312,0.015625,0.015625,39.457447,0.203125,1.0,45.833333
std,1.156519,10.444074,5.245827,2.234403,2.409675,2.403195,2.446072,1.193404,4.724262,2.049447,...,151.186311,11.749537,4.619131,1.325454,0.124507,0.124507,24.496506,0.807049,0.0,29.978275
min,0.0,25.0,3.0,0.0,1.0,0.0,0.0,0.0,5.0,0.0,...,189.0,80.0,5.0,0.0,0.0,0.0,1.0,0.0,1.0,12.0
25%,0.0,42.0,9.0,2.0,4.0,1.75,3.0,0.0,11.0,1.0,...,351.0,101.0,10.0,1.0,0.0,0.0,18.25,0.0,1.0,21.75
50%,1.0,50.0,12.0,3.5,5.0,3.0,5.0,1.0,15.0,2.0,...,462.0,104.5,13.0,2.0,0.0,0.0,39.0,0.0,1.0,35.0
75%,2.0,58.0,15.0,5.0,7.0,4.0,6.0,2.0,18.0,4.0,...,555.25,109.0,16.0,2.0,0.0,0.0,54.75,0.0,1.0,75.75
max,6.0,75.0,26.0,12.0,11.0,10.0,11.0,5.0,26.0,9.0,...,1137.0,148.0,25.0,6.0,1.0,1.0,90.0,4.0,1.0,90.0


In [139]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128 entries, 0 to 127
Data columns (total 27 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Date                    128 non-null    object 
 1   Team                    128 non-null    object 
 2   Opponent                128 non-null    object 
 3   Goal Scored             128 non-null    int64  
 4   Ball Possession %       128 non-null    int64  
 5   Attempts                128 non-null    int64  
 6   On-Target               128 non-null    int64  
 7   Off-Target              128 non-null    int64  
 8   Blocked                 128 non-null    int64  
 9   Corners                 128 non-null    int64  
 10  Offsides                128 non-null    int64  
 11  Free Kicks              128 non-null    int64  
 12  Saves                   128 non-null    int64  
 13  Pass Accuracy %         128 non-null    int64  
 14  Passes                  128 non-null    in

In [140]:
df.shape

(128, 27)

In [141]:
df.columns

Index(['Date', 'Team', 'Opponent', 'Goal Scored', 'Ball Possession %',
       'Attempts', 'On-Target', 'Off-Target', 'Blocked', 'Corners', 'Offsides',
       'Free Kicks', 'Saves', 'Pass Accuracy %', 'Passes',
       'Distance Covered (Kms)', 'Fouls Committed', 'Yellow Card',
       'Yellow & Red', 'Red', 'Man of the Match', '1st Goal', 'Round', 'PSO',
       'Goals in PSO', 'Own goals', 'Own goal Time'],
      dtype='object')

In [148]:
df.head(2)

Unnamed: 0,Date,Team,Opponent,Goal Scored,Ball Possession %,Attempts,On-Target,Off-Target,Blocked,Corners,...,Yellow Card,Yellow & Red,Red,Man of the Match,1st Goal,Round,PSO,Goals in PSO,Own goals,Own goal Time
0,14-06-2018,Russia,Saudi Arabia,5,40,13,7,3,3,6,...,0,0,0,Yes,12.0,Group Stage,No,0,,
1,14-06-2018,Saudi Arabia,Russia,0,60,6,0,3,3,2,...,0,0,0,No,,Group Stage,No,0,,


In [143]:
df.tail(4)

Unnamed: 0,Date,Team,Opponent,Goal Scored,Ball Possession %,Attempts,On-Target,Off-Target,Blocked,Corners,...,Yellow Card,Yellow & Red,Red,Man of the Match,1st Goal,Round,PSO,Goals in PSO,Own goals,Own goal Time
124,14-07-2018,Belgium,England,2,43,12,4,3,5,4,...,1,0,0,Yes,4.0,3rd Place,No,0,,
125,14-07-2018,England,Belgium,0,57,15,5,7,3,5,...,2,0,0,No,,3rd Place,No,0,,
126,15-07-2018,France,Croatia,4,39,8,6,1,1,2,...,2,0,0,Yes,18.0,Final,No,0,1.0,18.0
127,15-07-2018,Croatia,France,2,61,15,3,8,4,6,...,1,0,0,No,28.0,Final,No,0,,


### unique y value_counts()

In [144]:
df['Team'].unique()

array(['Russia', 'Saudi Arabia', 'Egypt', 'Uruguay', 'Morocco', 'Iran',
       'Portugal', 'Spain', 'France', 'Australia', 'Argentina', 'Iceland',
       'Peru', 'Denmark', 'Croatia', 'Nigeria', 'Costa Rica', 'Serbia',
       'Germany', 'Mexico', 'Brazil', 'Switzerland', 'Sweden',
       'Korea Republic', 'Belgium', 'Panama', 'Tunisia', 'England',
       'Colombia', 'Japan', 'Poland', 'Senegal'], dtype=object)

In [145]:
df.Team.value_counts()

Team
Belgium           7
Croatia           7
France            7
England           7
Russia            5
Brazil            5
Uruguay           5
Sweden            5
Switzerland       4
Denmark           4
Argentina         4
Spain             4
Portugal          4
Colombia          4
Japan             4
Mexico            4
Tunisia           3
Panama            3
Korea Republic    3
Poland            3
Costa Rica        3
Germany           3
Serbia            3
Saudi Arabia      3
Nigeria           3
Peru              3
Iceland           3
Australia         3
Iran              3
Morocco           3
Egypt             3
Senegal           3
Name: count, dtype: int64

### count, min, max, mean, median, std y corr


In [149]:
df.corr()

ValueError: could not convert string to float: '14-06-2018'

## Precentiles

Son una medida usada en estadística que indica el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones. Ahora los Cuantiles son puntos tomados a intervalos regulares de la función de distribución de una variable aleatoria. Los cuantiles podemos usarlos por grupos que dividan la distribución en partes iguales; obteniendo sus hijos, los Percentiles, Deciles y Quartiles.

In [158]:
df['Distance Covered (Kms)'].quantile(0.5) # 10th percentile

np.float64(104.5)

In [151]:
df['Distance Covered (Kms)'].median()

np.float64(104.5)

### Ordenando datos

In [None]:
df.sort_index()

Unnamed: 0,Date,Team,Opponent,Goal Scored,Ball Possession %,Attempts,On-Target,Off-Target,Blocked,Corners,...,Yellow Card,Yellow & Red,Red,Man of the Match,1st Goal,Round,PSO,Goals in PSO,Own goals,Own goal Time
0,14-06-2018,Russia,Saudi Arabia,5,40,13,7,3,3,6,...,0,0,0,Yes,12.0,Group Stage,No,0,,
1,14-06-2018,Saudi Arabia,Russia,0,60,6,0,3,3,2,...,0,0,0,No,,Group Stage,No,0,,
2,15-06-2018,Egypt,Uruguay,0,43,8,3,3,2,0,...,2,0,0,No,,Group Stage,No,0,,
3,15-06-2018,Uruguay,Egypt,1,57,14,4,6,4,5,...,0,0,0,Yes,89.0,Group Stage,No,0,,
4,15-06-2018,Morocco,Iran,0,64,13,3,6,4,5,...,1,0,0,No,,Group Stage,No,0,1.0,90.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
123,11-07-2018,England,Croatia,1,46,11,1,6,4,4,...,1,0,0,No,5.0,Semi- Finals,No,0,,
124,14-07-2018,Belgium,England,2,43,12,4,3,5,4,...,1,0,0,Yes,4.0,3rd Place,No,0,,
125,14-07-2018,England,Belgium,0,57,15,5,7,3,5,...,2,0,0,No,,3rd Place,No,0,,
126,15-07-2018,France,Croatia,4,39,8,6,1,1,2,...,2,0,0,Yes,18.0,Final,No,0,1.0,18.0


In [160]:
df.sort_values(["Goal Scored"], ascending=False).head()

Unnamed: 0,Date,Team,Opponent,Goal Scored,Ball Possession %,Attempts,On-Target,Off-Target,Blocked,Corners,...,Yellow Card,Yellow & Red,Red,Man of the Match,1st Goal,Round,PSO,Goals in PSO,Own goals,Own goal Time
58,24-06-2018,England,Panama,6,58,12,7,3,2,3,...,1,0,0,Yes,8.0,Group Stage,No,0,,
0,14-06-2018,Russia,Saudi Arabia,5,40,13,7,3,3,6,...,0,0,0,Yes,12.0,Group Stage,No,0,,
52,23-06-2018,Belgium,Tunisia,5,52,23,12,8,3,5,...,0,0,0,Yes,6.0,Group Stage,No,0,,
126,15-07-2018,France,Croatia,4,39,8,6,1,1,2,...,2,0,0,Yes,18.0,Final,No,0,1.0,18.0
96,30-06-2018,France,Argentina,4,41,9,4,4,1,0,...,3,0,0,Yes,13.0,Round of 16,No,0,,


### Tablas Dinamicas

In [None]:
import numpy as np

In [None]:
df.pivot_table(index='Team', columns='Round', values='Goal Scored', aggfunc=np.sum)

Round,3rd Place,Final,Group Stage,Quarter Finals,Round of 16,Semi- Finals
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Argentina,,,3.0,,3.0,
Australia,,,2.0,,,
Belgium,2.0,,9.0,2.0,3.0,0.0
Brazil,,,5.0,1.0,2.0,
Colombia,,,5.0,,1.0,
Costa Rica,,,2.0,,,
Croatia,,2.0,7.0,2.0,1.0,2.0
Denmark,,,2.0,,1.0,
Egypt,,,2.0,,,
England,0.0,,8.0,2.0,1.0,1.0


## Combinando datasets

### concat y append 

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])
   

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                    index=[4, 5, 6, 7])


df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11']},
                    index=[8, 9, 10, 11])

frames = [df1, df2, df3]


In [None]:
df3

Unnamed: 0,A,B,C
8,A8,B8,C8
9,A9,B9,C9
10,A10,B10,C10
11,A11,B11,C11


In [None]:
pd.concat(frames)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,
9,A9,B9,C9,


In [None]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                     index=[2, 3, 6, 7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [None]:
frames = [df1, df2, df3, df4]
pd.concat(frames)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,A4,B4,C4,D4,
5,A5,B5,C5,D5,
6,A6,B6,C6,D6,
7,A7,B7,C7,D7,
8,A8,B8,C8,,
9,A9,B9,C9,,


In [None]:
pd.concat([df1, df4], axis=1) # Concatenación horizontal

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [None]:
pd.concat([df1, df4], axis=1, join='inner') # Cambiando la forma de concatenar con join

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [None]:
df1.append(df2) # Append es otra forma de fácilmente concatenerar

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


### Merge

In [None]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']})


pd.merge(left, right, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2


In [None]:
import numpy as np

## Apply y Map

### apply

In [None]:
usuarios_df = pd.DataFrame({'edad': [np.nan, 20, 41, 20],
                            'clics_por_hora': [156, np.nan, 210, 210]})
usuarios_df

Unnamed: 0,edad,clics_por_hora
0,,156.0
1,20.0,
2,41.0,210.0
3,20.0,210.0


In [None]:
import numpy as np
usuarios2 = usuarios_df.apply(np.mean) # Se puede aplicar cualquier función que toma una fila o columna por entrada.

In [None]:
usuarios2

edad               27.0
clics_por_hora    192.0
dtype: float64

In [None]:
usuarios_df

Unnamed: 0,edad,clics_por_hora
0,,156.0
1,20.0,
2,41.0,210.0
3,20.0,210.0


### applymap

In [None]:
usuarios_df.applymap(lambda x: x/2) # Se aplica elemento a elemento. En las series podemos usar directamente serie.map

Unnamed: 0,edad,clics_por_hora
0,,78.0
1,10.0,
2,20.5,105.0
3,10.0,105.0


## Missing values

### Filtrando valores faltantes

In [None]:
usuarios_df

Unnamed: 0,edad,clics_por_hora
0,,156.0
1,20.0,
2,41.0,210.0
3,20.0,210.0


In [None]:
usuarios_df.isna()

Unnamed: 0,edad,clics_por_hora
0,True,False
1,False,True
2,False,False
3,False,False


In [None]:
u2 = usuarios_df.dropna()  # Puede borrarse toda fila que contenga un NaN o solamente en las columnas que especificamos

In [None]:
u2

Unnamed: 0,edad,clics_por_hora
2,41.0,210.0
3,20.0,210.0


In [None]:
usuarios_df

Unnamed: 0,edad,clics_por_hora
0,,156.0
1,20.0,
2,41.0,210.0
3,20.0,210.0


In [None]:
usuarios_df.dropna(subset=['edad'])

Unnamed: 0,edad,clics_por_hora
1,20.0,
2,41.0,210.0
3,20.0,210.0


In [None]:
copia_df = usuarios_df

In [None]:
usuarios_df

Unnamed: 0,edad,clics_por_hora
0,,156.0
1,20.0,
2,41.0,210.0
3,20.0,210.0


### Completando valores 

In [None]:
usuarios_df = pd.DataFrame({'edad': [np.nan, 20, 41, 20, 22, 25],
                            'clics_por_hora': [156, np.nan, 210, 210, 100, np.nan],
                            'genero': ['m','f','f','f','m','f']})
usuarios_df

Unnamed: 0,edad,clics_por_hora,genero
0,,156.0,m
1,20.0,,f
2,41.0,210.0,f
3,20.0,210.0,f
4,22.0,100.0,m
5,25.0,,f


In [None]:
usuarios_df_m = usuarios_df[usuarios_df['genero'] == 'm']

In [None]:
usuarios_df_f = usuarios_df[usuarios_df['genero'] == 'f']

In [None]:
usuarios_df_f['edad'].fillna(usuarios_df_f.edad.mean())

1    20.0
2    41.0
3    20.0
5    25.0
Name: edad, dtype: float64

In [None]:
usuarios_df_m['edad'].fillna(usuarios_df_m.edad.mean())

0    22.0
4    22.0
Name: edad, dtype: float64

In [None]:
copia_df['edad'].fillna(usuarios_df.edad.mean())

0    25.6
1    20.0
2    41.0
3    20.0
Name: edad, dtype: float64

In [None]:
copia_df['edad'].fillna(usuarios_df.edad.mean())

0    27.0
1    20.0
2    41.0
3    20.0
Name: edad, dtype: float64

In [None]:
copia_df.fillna(0)

Unnamed: 0,edad,clics_por_hora
0,0.0,156.0
1,20.0,0.0
2,41.0,210.0
3,20.0,210.0


In [None]:
copia_df

Unnamed: 0,edad,clics_por_hora
0,,156.0
1,20.0,
2,41.0,210.0
3,20.0,210.0


In [None]:
copia_df1 = copia_df.fillna(usuarios_df.edad.mean()) # Podemos elegir con qué completar los valores faltantes., inplace=True

In [None]:
copia_df1

Unnamed: 0,edad,clics_por_hora
0,25.6,156.0
1,20.0,25.6
2,41.0,210.0
3,20.0,210.0


In [None]:
copia_df.fillna(usuarios_df.edad.mean(), inplace=True) # Podemos elegir con qué completar los valores faltantes.

In [None]:
copia_df

Unnamed: 0,edad,clics_por_hora
0,25.6,156.0
1,20.0,25.6
2,41.0,210.0
3,20.0,210.0


### Borrando duplicados

In [None]:
usuarios_df = pd.DataFrame({'edad': [np.nan, 20, 41, 20, 20, 41],
                            'clics_por_hora': [156, np.nan, 210, 210, 100, np.nan],
                            'genero': ['m','f','f','f','m','f']})
usuarios_df

Unnamed: 0,edad,clics_por_hora,genero
0,,156.0,m
1,20.0,,f
2,41.0,210.0,f
3,20.0,210.0,f
4,20.0,100.0,m
5,41.0,,f


In [None]:
usuarios_df.drop_duplicates(subset=['clics_por_hora'], keep='last', inplace=True) # Se puede jugar con el first, last, etc. Y también elegir en qué columnas

In [None]:
usuarios_df

Unnamed: 0,edad,clics_por_hora,genero
0,,156.0,m
3,20.0,210.0,f
4,20.0,100.0,m
5,41.0,,f


In [None]:
usuarios_df.drop_duplicates(subset=['genero']) # Se puede jugar con el first, last, etc. Y también elegir en qué columnas

Unnamed: 0,edad,clics_por_hora,genero
0,,156.0,m
1,20.0,,f


In [None]:
import pandas as pd
ejemplo = pd.DataFrame({'campo1': [None, 20, 41, 20], 'campo2': [156, None, 210, 210]})
ejemplo

Unnamed: 0,campo1,campo2
0,,156.0
1,20.0,
2,41.0,210.0
3,20.0,210.0


In [None]:
ejemplo.fillna(ejemplo.campo2.mean(), inplace=True)
ejemplo.fillna(ejemplo.campo1.mode()) #, inplace=True)
ejemplo

Unnamed: 0,campo1,campo2
0,192.0,156.0
1,20.0,192.0
2,41.0,210.0
3,20.0,210.0
