# Práctica Clase 4

## Biblioteca Pandas


## Introducción

* Las filas y columnas están identificados con etiquetas, además de simples índices enteros
* Es importante entender un poco de las estructuras de Pandas
* Tres estructuras importantes:
    + `Series`
    + `DataFrame`
    + `Index`

In [3]:
import numpy as np
import pandas as pd

## Objetos `Series` en Pandas

* Puede pensarse como una array de una sola dimensión indexado. 
* Puede ser creado desde una lista:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0, 1.3])
data

* Una ``Series`` encapsula tanto una secuencia de valores como una de índices.
* Podemos acceder a ellos con los atributos `values` e `index`

In [None]:
data.values

* Un `index` es un objeto similar a un array.

In [None]:
data.index

* Podemos acceder a una `Series` a través del índice asociado de forma similar a los arrays de Numpy: con los `[]` 


In [None]:
data[1] #dentro del corchete colocamos el index del elemento que buscamos

In [None]:
data[2:]

### ``Series`` como generalización de un array de  NumPy 

* La diferencia esencial con un array de Numpy es que mientras que el array tiene un índice entero *"implícitamente definido"*, una `Series` de Pandas tiene un índice asociado a los valores *que está definido de forma explícita*
* Este índice explícito le da a una `Series` capacidades adicionales.
* El índice explícito no tiene por qué ser un entero y tampoco todos sus valores tienen que ser necesariamente únicos.

* Pueden ser `strings` 

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [None]:
data.index

* Y podemos acceder simplemente:

In [None]:
data['b']

* O puede ser una secuencia no contigua de `int`s

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 1])
data

In [None]:
data[5]

### ``Series`` como un `dict` especializado

* Un `dict` es una estructura que mapea un set de keys arbitrarias a un set de valores de un tipo.
* Puede hacerse, entonces, una analogía entre una `Series` y un `dict`

In [4]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [None]:
population.values

In [None]:
population.index

* Puede crearse una `Series` a partir de un `dict`: el índice se toma de las keys.
* Así, puede accederse de forma análoga a un `dict`.

In [None]:
population['California']

* A diferencia de un `dict` una `Series` soporta algunas operaciones del estilo de un array, como por ejemplo, slicing:

In [None]:
population['California':'New York']

* Si creamos una `Series` con una lista de strings se respeta el orden de las columnas, mientras que las claves de los `dicts` se ordenan alfabéticamente al crearse la `Series`

In [None]:
#Series creada a partir de dos listas, una sera el index y la otra seran los values
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
states = pd.Series(states_pop, index= states_list)

In [None]:
states['Illinois':'New York']

### Construyendo objetos Series

* Podemos construir `Series` desde cero. La forma general de hacerlo es la siguiente:

```python
>>> pd.Series(data, index=index)
```
* `index` es un argumento opcional y `data` puede ser varias cosas

In [None]:
# Una lista o un array de Numpy
pd.Series([2, 4, 6])

In [None]:
# Un escalar repetido a lo largo de un índice
pd.Series(5, index = [100, 200, 300])

In [None]:
# Un diccionario
pd.Series({2:'a', 1:'b', 3:'c'}) 

In [None]:
# En cada caso, podría usarse el índice explícitamente si lo que se busca es otro resultado
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2]) 

## Objeto `DataFrame`

* Otra estructura fundamental. 
* También puede ser pensada como una generalización de un array de NumPy o como un tipo especial de diccionario.

### `DataFrame` como un array de Numpy

* Un `DataFrame` es un tipo análogo a una `Series` en dos dimensiones y, por lo tanto, puede ser una pensado tanto como una generalización de un array de Numpy o como un conjunto de `Series` alineados. Es decir, que tienen el mismo índice.

* Para demostrar esto generemos una `Serie` con el área de algunos estados:

In [11]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': np.nan}
area = pd.Series(area_dict)
area

California    423967.0
Texas         695662.0
New York      141297.0
Florida       170312.0
Illinois           NaN
dtype: float64

In [None]:
population

* Ahora, podemos usar un diccionario para construir un objeto bidimensional conteniendo toda la información.

In [12]:
states = pd.DataFrame({'population': population,
                       'area': area})       # aqui ya reconoce que los index son iguales, que pasaria si no lo fueran?
states

Unnamed: 0,population,area
California,38332521,423967.0
Texas,26448193,695662.0
New York,19651127,141297.0
Florida,19552860,170312.0
Illinois,12882135,


Al igual que las ``Series``, un ``DataFrame`` posee un atributo ``index``:

In [13]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Además, tiene un atributo ``columns``, que es un objeto ``Index`` conteniendo las etiquetas de columnas:

In [14]:
states.columns

Index(['population', 'area'], dtype='object')

In [15]:
states['population']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: population, dtype: int64

In [16]:
states

Unnamed: 0,population,area
California,38332521,423967.0
Texas,26448193,695662.0
New York,19651127,141297.0
Florida,19552860,170312.0
Illinois,12882135,


In [17]:
states['density'] = states['population'] / states['area']
states

Unnamed: 0,population,area,density
California,38332521,423967.0,90.413926
Texas,26448193,695662.0,38.01874
New York,19651127,141297.0,139.076746
Florida,19552860,170312.0,114.806121
Illinois,12882135,,


### DataFrame como un diccionario especializado

* De forma similar, podemos pensar al `DataFrame` como un diccionario: 
    
    - Un diccionario mapea una key con un valor
    - Un `DataFrame` mapea un nombre de columna con una `Series` de datos.
    
    
* Por ejemplo, pedir el atributo `area` del `DataFrame` `states` devuelve una `Series`. 

In [18]:
states['area']

California    423967.0
Texas         695662.0
New York      141297.0
Florida       170312.0
Illinois           NaN
Name: area, dtype: float64

### Construyendo objetos `DataFrame`

#### Desde una `Series` simple:

In [19]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### Desde una lista de dicts

In [20]:
data = [{'a': i, 'b': 2 * i}
        for i in range(10)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8
5,5,10
6,6,12
7,7,14
8,8,16
9,9,18


* Notar que incluso si alguna key está perdida en el diccionario, Pandas llena con `NaN` el valor:

In [21]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### De un dict de `Series`

In [22]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967.0
Texas,26448193,695662.0
New York,19651127,141297.0
Florida,19552860,170312.0
Illinois,12882135,


#### Desde un array Numpy de dos dimensiones

In [23]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],        # Aqui numpy me pone valores random entre 0 y 1 en una matriz
             index=['a', 'b', 'c'])         # y Pandas me los transforma en un Data Frame y les agrega sus respectivos index y etiquetas de columnas.

Unnamed: 0,foo,bar
a,0.331807,0.406735
b,0.953128,0.052639
c,0.139038,0.573968


## El objeto `Index`

* Un `Index` puede ser pensado como un _array inmutable_  o como un set ordenado
* Para ilustrar las implicancias de este punto pensemos en el siguiente ejemplo en el que construimos un `Index` desde una lista de enteros.
* Los `DataFrames` tienen un `Index` que describe a las filas y otro que describe a las columnas. 
* Al  `Index` de filas se accede con `df.index` y al de columna `df.columns`.

In [24]:
ind = pd.Index([2, 3, 5, 7, 11])    # Al  `Index` de filas se accede con `df.index` y al de columna `df.columns`.
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### `Index` como una array inmutable

* Podemos indexar y hacer slicing de forma similar a un array

In [25]:
ind[1]

3

In [26]:
ind[::2] # desde 0 al ultimo elemento con paso de dos elementos (me salteo 1)

Int64Index([2, 5, 11], dtype='int64')

Los `Index` tienen atributos similares a los arrays de Numpy

In [27]:
print(ind.size, ind.shape, ind.ndim, ind.dtype) # distintos metodos que me permiten obtener info sobre el volumen de los datos

5 (5,) 1 int64


Una diferencia entre los ``Index`` y los arrays de NumPy es que los primeros son *inmutables*:

In [None]:
ind[1] = 0

### `Index` como un set ordenado

* Se pueden utilizar operaciones de conjuntos con los ``Index`` siguiendo las convenciones de Python

In [30]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [31]:
indA & indB  # intersection: me sirve si quiero fijarme que mis tablas tengan los mismos index, me devuelve los index en los que coinciden

  indA & indB  # intersection


Int64Index([3, 5, 7], dtype='int64')

In [32]:
indA | indB  # union: me devuelve todos los index que tienen en comun y los que no, tambien.

  indA | indB  # union: me devuelve todos los index que tienen en comun y los que no, tambien.


Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [33]:
indA ^ indB  # symmetric difference: me muestra cuales son los indices que no coinciden entre A y B.

  indA ^ indB  # symmetric difference


Int64Index([1, 2, 9, 11], dtype='int64')

### Series y DataFrames

In [34]:
import pandas as pd

In [35]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [36]:
animales = ['Tortuga', 'Zorro', 'Paloma', 'Elefante']
tipo = ['reptil', 'mamífero', 'ave', 'mamífero']
obj = pd.Series(tipo, index=animales)
obj

Tortuga       reptil
Zorro       mamífero
Paloma           ave
Elefante    mamífero
dtype: object

DataFrames

In [37]:
d = {'tipo_vivienda': ['casa', 'departamento'], 'm2': [35, 49]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,tipo_vivienda,m2
0,casa,35
1,departamento,49


### Cargando datos

In [39]:
df = pd.read_csv('fifa-statistics.csv')
df

Unnamed: 0,Date,Team,Opponent,Goal Scored,Ball Possession %,Attempts,On-Target,Off-Target,Blocked,Corners,...,Yellow Card,Yellow & Red,Red,Man of the Match,1st Goal,Round,PSO,Goals in PSO,Own goals,Own goal Time
0,14-06-2018,Russia,Saudi Arabia,5,40,13,7,3,3,6,...,0,0,0,Yes,12.0,Group Stage,No,0,,
1,14-06-2018,Saudi Arabia,Russia,0,60,6,0,3,3,2,...,0,0,0,No,,Group Stage,No,0,,
2,15-06-2018,Egypt,Uruguay,0,43,8,3,3,2,0,...,2,0,0,No,,Group Stage,No,0,,
3,15-06-2018,Uruguay,Egypt,1,57,14,4,6,4,5,...,0,0,0,Yes,89.0,Group Stage,No,0,,
4,15-06-2018,Morocco,Iran,0,64,13,3,6,4,5,...,1,0,0,No,,Group Stage,No,0,1.0,90.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
123,11-07-2018,England,Croatia,1,46,11,1,6,4,4,...,1,0,0,No,5.0,Semi- Finals,No,0,,
124,14-07-2018,Belgium,England,2,43,12,4,3,5,4,...,1,0,0,Yes,4.0,3rd Place,No,0,,
125,14-07-2018,England,Belgium,0,57,15,5,7,3,5,...,2,0,0,No,,3rd Place,No,0,,
126,15-07-2018,France,Croatia,4,39,8,6,1,1,2,...,2,0,0,Yes,18.0,Final,No,0,1.0,18.0


## Selección e Indexing

### loc e iloc

In [47]:
df.loc[0,'Team']

'Russia'

In [59]:
df.iloc[0, [2]] # Fila 0, [Columna 2] index= 0, column=2


Opponent    Saudi Arabia
Name: 0, dtype: object

In [57]:
df.iloc[2]  # devuelve toda la fila 2, index=2.

Date                       15-06-2018
Team                            Egypt
Opponent                      Uruguay
Goal Scored                         0
Ball Possession %                  43
Attempts                            8
On-Target                           3
Off-Target                          3
Blocked                             2
Corners                             0
Offsides                            1
Free Kicks                          7
Saves                               3
Pass Accuracy %                    78
Passes                            395
Distance Covered (Kms)            112
Fouls Committed                    12
Yellow Card                         2
Yellow & Red                        0
Red                                 0
Man of the Match                   No
1st Goal                          NaN
Round                     Group Stage
PSO                                No
Goals in PSO                        0
Own goals                         NaN
Own goal Tim

## Análisis descriptivo en Pandas

### describe, info y shape

In [60]:
df.describe()

Unnamed: 0,Goal Scored,Ball Possession %,Attempts,On-Target,Off-Target,Blocked,Corners,Offsides,Free Kicks,Saves,...,Passes,Distance Covered (Kms),Fouls Committed,Yellow Card,Yellow & Red,Red,1st Goal,Goals in PSO,Own goals,Own goal Time
count,128.0,128.0,128.0,128.0,128.0,128.0,128.0,128.0,128.0,128.0,...,128.0,128.0,128.0,128.0,128.0,128.0,94.0,128.0,12.0,12.0
mean,1.320312,49.992188,12.59375,3.914062,5.273438,3.359375,4.71875,1.34375,14.890625,2.726562,...,462.648438,106.664062,13.546875,1.695312,0.015625,0.015625,39.457447,0.203125,1.0,45.833333
std,1.156519,10.444074,5.245827,2.234403,2.409675,2.403195,2.446072,1.193404,4.724262,2.049447,...,151.186311,11.749537,4.619131,1.325454,0.124507,0.124507,24.496506,0.807049,0.0,29.978275
min,0.0,25.0,3.0,0.0,1.0,0.0,0.0,0.0,5.0,0.0,...,189.0,80.0,5.0,0.0,0.0,0.0,1.0,0.0,1.0,12.0
25%,0.0,42.0,9.0,2.0,4.0,1.75,3.0,0.0,11.0,1.0,...,351.0,101.0,10.0,1.0,0.0,0.0,18.25,0.0,1.0,21.75
50%,1.0,50.0,12.0,3.5,5.0,3.0,5.0,1.0,15.0,2.0,...,462.0,104.5,13.0,2.0,0.0,0.0,39.0,0.0,1.0,35.0
75%,2.0,58.0,15.0,5.0,7.0,4.0,6.0,2.0,18.0,4.0,...,555.25,109.0,16.0,2.0,0.0,0.0,54.75,0.0,1.0,75.75
max,6.0,75.0,26.0,12.0,11.0,10.0,11.0,5.0,26.0,9.0,...,1137.0,148.0,25.0,6.0,1.0,1.0,90.0,4.0,1.0,90.0


In [61]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128 entries, 0 to 127
Data columns (total 27 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Date                    128 non-null    object 
 1   Team                    128 non-null    object 
 2   Opponent                128 non-null    object 
 3   Goal Scored             128 non-null    int64  
 4   Ball Possession %       128 non-null    int64  
 5   Attempts                128 non-null    int64  
 6   On-Target               128 non-null    int64  
 7   Off-Target              128 non-null    int64  
 8   Blocked                 128 non-null    int64  
 9   Corners                 128 non-null    int64  
 10  Offsides                128 non-null    int64  
 11  Free Kicks              128 non-null    int64  
 12  Saves                   128 non-null    int64  
 13  Pass Accuracy %         128 non-null    int64  
 14  Passes                  128 non-null    in

In [62]:
df.shape #128 registros, 27 variables

(128, 27)

In [63]:
df.columns

Index(['Date', 'Team', 'Opponent', 'Goal Scored', 'Ball Possession %',
       'Attempts', 'On-Target', 'Off-Target', 'Blocked', 'Corners', 'Offsides',
       'Free Kicks', 'Saves', 'Pass Accuracy %', 'Passes',
       'Distance Covered (Kms)', 'Fouls Committed', 'Yellow Card',
       'Yellow & Red', 'Red', 'Man of the Match', '1st Goal', 'Round', 'PSO',
       'Goals in PSO', 'Own goals', 'Own goal Time'],
      dtype='object')

In [64]:
df.head(3)

Unnamed: 0,Date,Team,Opponent,Goal Scored,Ball Possession %,Attempts,On-Target,Off-Target,Blocked,Corners,...,Yellow Card,Yellow & Red,Red,Man of the Match,1st Goal,Round,PSO,Goals in PSO,Own goals,Own goal Time
0,14-06-2018,Russia,Saudi Arabia,5,40,13,7,3,3,6,...,0,0,0,Yes,12.0,Group Stage,No,0,,
1,14-06-2018,Saudi Arabia,Russia,0,60,6,0,3,3,2,...,0,0,0,No,,Group Stage,No,0,,
2,15-06-2018,Egypt,Uruguay,0,43,8,3,3,2,0,...,2,0,0,No,,Group Stage,No,0,,


In [65]:
df.tail(4)

Unnamed: 0,Date,Team,Opponent,Goal Scored,Ball Possession %,Attempts,On-Target,Off-Target,Blocked,Corners,...,Yellow Card,Yellow & Red,Red,Man of the Match,1st Goal,Round,PSO,Goals in PSO,Own goals,Own goal Time
124,14-07-2018,Belgium,England,2,43,12,4,3,5,4,...,1,0,0,Yes,4.0,3rd Place,No,0,,
125,14-07-2018,England,Belgium,0,57,15,5,7,3,5,...,2,0,0,No,,3rd Place,No,0,,
126,15-07-2018,France,Croatia,4,39,8,6,1,1,2,...,2,0,0,Yes,18.0,Final,No,0,1.0,18.0
127,15-07-2018,Croatia,France,2,61,15,3,8,4,6,...,1,0,0,No,28.0,Final,No,0,,


### unique y value_counts()

In [66]:
df['Team'].unique()

array(['Russia', 'Saudi Arabia', 'Egypt', 'Uruguay', 'Morocco', 'Iran',
       'Portugal', 'Spain', 'France', 'Australia', 'Argentina', 'Iceland',
       'Peru', 'Denmark', 'Croatia', 'Nigeria', 'Costa Rica', 'Serbia',
       'Germany', 'Mexico', 'Brazil', 'Switzerland', 'Sweden',
       'Korea Republic', 'Belgium', 'Panama', 'Tunisia', 'England',
       'Colombia', 'Japan', 'Poland', 'Senegal'], dtype=object)

In [None]:
df.Team.value_counts()

### count, min, max, mean, median, std y corr


In [None]:
df.corr()

## Precentiles

Son una medida usada en estadística que indica el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones. Ahora los Cuantiles son puntos tomados a intervalos regulares de la función de distribución de una variable aleatoria. Los cuantiles podemos usarlos por grupos que dividan la distribución en partes iguales; obteniendo sus hijos, los Percentiles, Deciles y Quartiles.

In [None]:
df['Distance Covered (Kms)'].quantile(0.5) # 10th percentile

In [None]:
df['Distance Covered (Kms)'].median()

### Ordenando datos

In [None]:
df.sort_index()

In [None]:
df.sort_values(["Goal Scored"], ascending=False).head()

### Tablas Dinamicas

In [None]:
import numpy as np

In [None]:
df.pivot_table(index='Team', columns='Round', values='Goal Scored', aggfunc=np.sum)

## Combinando datasets

### concat y append 

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])
   

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                    index=[4, 5, 6, 7])


df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11']},
                    index=[8, 9, 10, 11])

frames = [df1, df2, df3]


In [None]:
df3

In [None]:
pd.concat(frames)

In [None]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                     index=[2, 3, 6, 7])
df4

In [None]:
frames = [df1, df2, df3, df4]
pd.concat(frames)

In [None]:
pd.concat([df1, df4], axis=1) # Concatenación horizontal

In [None]:
pd.concat([df1, df4], axis=1, join='inner') # Cambiando la forma de concatenar con join

In [None]:
df1.append(df2) # Append es otra forma de fácilmente concatenerar

### Merge

In [None]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']})


pd.merge(left, right, on='key')

In [None]:
import numpy as np

## Apply y Map

### apply

In [None]:
usuarios_df = pd.DataFrame({'edad': [np.nan, 20, 41, 20],
                            'clics_por_hora': [156, np.nan, 210, 210]})
usuarios_df

In [None]:
import numpy as np
usuarios2 = usuarios_df.apply(np.mean) # Se puede aplicar cualquier función que toma una fila o columna por entrada.

In [None]:
usuarios2

In [None]:
usuarios_df

### applymap

In [None]:
usuarios_df.applymap(lambda x: x/2) # Se aplica elemento a elemento. En las series podemos usar directamente serie.map

## Missing values

### Filtrando valores faltantes

In [None]:
usuarios_df

In [None]:
usuarios_df.isna()

In [None]:
u2 = usuarios_df.dropna()  # Puede borrarse toda fila que contenga un NaN o solamente en las columnas que especificamos

In [None]:
u2

In [None]:
usuarios_df

In [None]:
usuarios_df.dropna(subset=['edad'])

In [None]:
copia_df = usuarios_df

In [None]:
usuarios_df

### Completando valores 

In [None]:
usuarios_df = pd.DataFrame({'edad': [np.nan, 20, 41, 20, 22, 25],
                            'clics_por_hora': [156, np.nan, 210, 210, 100, np.nan],
                            'genero': ['m','f','f','f','m','f']})
usuarios_df

In [None]:
usuarios_df_m = usuarios_df[usuarios_df['genero'] == 'm']

In [None]:
usuarios_df_f = usuarios_df[usuarios_df['genero'] == 'f']

In [None]:
usuarios_df_f['edad'].fillna(usuarios_df_f.edad.mean())

In [None]:
usuarios_df_m['edad'].fillna(usuarios_df_m.edad.mean())

In [None]:
copia_df['edad'].fillna(usuarios_df.edad.mean())

In [None]:
copia_df['edad'].fillna(usuarios_df.edad.mean())

In [None]:
copia_df.fillna(0)

In [None]:
copia_df

In [None]:
copia_df1 = copia_df.fillna(usuarios_df.edad.mean()) # Podemos elegir con qué completar los valores faltantes., inplace=True

In [None]:
copia_df1

In [None]:
copia_df.fillna(usuarios_df.edad.mean(), inplace=True) # Podemos elegir con qué completar los valores faltantes.

In [None]:
copia_df

### Borrando duplicados

In [None]:
usuarios_df = pd.DataFrame({'edad': [np.nan, 20, 41, 20, 20, 41],
                            'clics_por_hora': [156, np.nan, 210, 210, 100, np.nan],
                            'genero': ['m','f','f','f','m','f']})
usuarios_df

In [None]:
usuarios_df.drop_duplicates(subset=['clics_por_hora'], keep='last', inplace=True) # Se puede jugar con el first, last, etc. Y también elegir en qué columnas

In [None]:
usuarios_df

In [None]:
usuarios_df.drop_duplicates(subset=['genero']) # Se puede jugar con el first, last, etc. Y también elegir en qué columnas

In [None]:
import pandas as pd
ejemplo = pd.DataFrame({'campo1': [None, 20, 41, 20], 'campo2': [156, None, 210, 210]})
ejemplo

In [None]:
ejemplo.fillna(ejemplo.campo2.mean(), inplace=True)
ejemplo.fillna(ejemplo.campo1.mode()) #, inplace=True)
ejemplo