#Colección de ejercicios de Pandas

## 1 - Importa el paquete con el nombre "pd".

`pista: import … as …`


In [5]:
import pandas as pd


## 2 - Imprime la versión instalada.

`pista: __version__ `


In [6]:
print(pd.__version__)

1.3.5


##3 - Cree una serie desde un diccionario, desde una lista y desde un `numpy` array. 

`pista: pd.Series(...) `

In [7]:
import numpy as np
# Entrada:
mi_lista = list('abcedfghijklmnopqrstuvwxyz')
np_array = np.arange(26)
diccionario = dict(zip(mi_lista, np_array))

In [21]:
# Salida:
ser1 = pd.Series(mi_lista)
ser2 = pd.Series(np_array)
ser3 = pd.Series(diccionario)
print(ser3.head())

a    0
b    1
c    2
e    3
d    4
dtype: int64


## 4 - Convierta el índice de una serie a una columna de un `dataframe`
`pista:  to_frame() y reset_index()`

In [8]:
# Entrada:
mi_lista = list('abcedfghijklmnopqrstuvwxyz')
np_array = np.arange(26)
diccionario = dict(zip(mi_lista, np_array))
ser3 = pd.Series(diccionario)

In [22]:
# Salida
df = ser3.to_frame().reset_index()
print(df.head())

  index  0
0     a  0
1     b  1
2     c  2
3     e  3
4     d  4


## 5 - Combine varias series para formar un `dataframe`
`pista:  concat(...) o Dataframe(...)`

In [9]:
# Entrada
import numpy as np
ser1 = pd.Series(list('abcedfghijklmnopqrstuvwxyz'))
ser2 = pd.Series(np.arange(26))

In [23]:
# Solución 1
df = pd.concat([ser1, ser2], axis=1)

# Solución 2
df = pd.DataFrame({'col1': ser1, 'col2': ser2})
print(df.head())

  col1  col2
0    a     0
1    b     1
2    c     2
3    e     3
4    d     4


## 6 - Obtenga los items de la serie A no presentes en la serie B
`pista: ~ y isin(...)`


In [10]:
# Entrada
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

In [24]:
# Solución
ser1[~ser1.isin(ser2)]

0     a
1     b
2     c
3     e
4     d
5     f
6     g
7     h
8     i
9     j
10    k
11    l
12    m
13    n
14    o
15    p
16    q
17    r
18    s
19    t
20    u
21    v
22    w
23    x
24    y
25    z
dtype: object

## 7 - Obtenga la unión e intersección de dos series A y B.
`pista: union1d(...) y intersect1d(...) `

In [37]:
# Entrada
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

In [38]:
union = pd.Series(np.union1d(ser1, ser2))  
print(union)


0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
dtype: int64


In [39]:
interseccion = pd.Series(np.intersect1d(ser1,ser2))
print(interseccion)

0    4
1    5
dtype: int64


## 8 - Obtenga el valor mínimo, el percentil 25, la mediana, el percentil 75 y el máximo de una serie
`pista: percentile(...)`

In [61]:
# Entrada
serie_ejemplo = np.random.RandomState(100)
serie_ejemplo = pd.Series(serie_ejemplo.normal(10, 5, 25))
print(serie_ejemplo)

0      1.251173
1     11.713402
2     15.765179
3      8.737820
4     14.906604
5     12.571094
6     11.105898
7      4.649783
8      9.052521
9     11.275007
10     7.709865
11    12.175817
12     7.082025
13    14.084235
14    13.363604
15     9.477944
16     7.343598
17    15.148663
18     7.809322
19     4.408409
20    18.094908
21    17.708026
22     8.740604
23     5.787821
24    10.922593
dtype: float64


In [40]:
np.percentile(serie_ejemplo, q=[0, 25, 50, 75, 100])

array([ 1.25117263,  7.70986507, 10.92259345, 13.36360403, 18.0949083 ])

In [62]:
serie_ejemplo.describe()

count    25.000000
mean     10.435437
std       4.253118
min       1.251173
25%       7.709865
50%      10.922593
75%      13.363604
max      18.094908
dtype: float64

## 9 - Obtenga la frecuencia de aparición de los elementos de una lista.

`pista: value_counts()`

In [64]:
from pandas._libs.hashtable import value_count
# Entrada
serie = pd.Series(np.take(list('abcdefghijklmnoprstuvwxyz'),np.random.randint(8, size=30)))
print(serie)


0     c
1     h
2     d
3     c
4     b
5     f
6     e
7     c
8     f
9     f
10    c
11    g
12    f
13    c
14    d
15    d
16    b
17    g
18    a
19    b
20    a
21    h
22    g
23    e
24    c
25    d
26    f
27    e
28    g
29    b
dtype: object


In [56]:
serie.value_counts()

f    6
c    5
b    4
h    4
g    4
d    3
e    2
a    2
dtype: int64

## 10 - Mantenga de una lista los 3 términos que más aparecen. Renombre el resto de elementos a "otros".
`pista: isin(...)`

In [67]:
# Entrada
np.random.RandomState(100)
ser = pd.Series(np.random.randint(1, 5, [12]))

print("Top 3:", ser.value_counts())
ser[~ser.isin(ser.value_counts().index[0:3])] = 'Otros'
ser

Top 3: 2    4
4    4
3    3
1    1
dtype: int64


0         2
1         4
2         4
3         4
4         3
5         2
6         2
7         2
8     Otros
9         3
10        4
11        3
dtype: object

In [65]:
ser.value_counts()

4        7
2        3
1        1
Otros    1
dtype: int64

## 11 - Convierta una serie en un `dataframe` con 5 filas y 3 columnas.
`pista: reshape(filas, columnas) `

In [73]:
# Entrada
ser = pd.Series(np.random.randint(1, 10, 15))
df = pd.DataFrame(ser.values.reshape(5,3))
print(df)




   0  1  2
0  8  5  5
1  8  8  3
2  4  3  1
3  3  1  7
4  2  1  9


## 12 - Extraer las de una serie dado una lista de posiciones.
`pista: take(...)`

In [74]:
from numpy.core.fromnumeric import take
# Entrada
ser = pd.Series(list('abcdefghijklmnopqrstuvwxyz'))
pos = [0, 1, 2, 25, 3]
ser.take(pos)

0     a
1     b
2     c
25    z
3     d
dtype: object

## 13 - Obtener la posición de los items de la serie A en otra serie B.

`pista: where(...)`

In [78]:
from numpy.ma.core import where
# Entrada
ser1 = pd.Series([10, 9, 6, 5, 3, 1, 12, 8, 13])
ser2 = pd.Series([1, 3, 10, 13])
[pd.Index(ser1).get_loc(i) for i in ser2]


[5, 4, 0, 8]

### 14 - Calcule el Error Cuadrático Medio (SME en inglés) de dadas dos series.
`pista: mean(...)`

In [81]:
# Entrada
verdad = pd.Series(range(10))
prediccion = pd.Series(range(10)) + np.random.random(10)
np.mean((verdad-prediccion)**2)

 



0.42783171218464816

 ## 15 - Convertir el primer caracter de una serie en mayuúscula.

`pista: title()`

In [82]:
# Entrada
ser = pd.Series(['hola', 'me', 'llamo', 'Antonio'])
pd.Series([i.title() for i in ser])


0       Hola
1         Me
2      Llamo
3    Antonio
dtype: object

## 16 - Calcular el número de caracteres de cada palabra en una serie.

`pista: map(...), lambda(...) y len(...)`

In [20]:
# Entrada
ser = pd.Series(['hola', 'me', 'llamo', 'Antonio'])


## 17 - Dada una serie de fechas escritas como cadenas, páselas a `timeseries`.

`pista: to_datetime`

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`

In [None]:
# Entrada
ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])


## 18 - Obtenga el día del mes, el número de la semana y el día del año a partir de una serie de cadenas de fechas.
`pista: day.tolist(), weekofyear.tolist() y dayofyear.tolist() `

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`



In [None]:
# Entrada
ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])


## 19 - Dado una lista de "mes año", indique el día 15 de cada mes.
`pista: parse(...) `

`serie = pd.Series(['Jan 2018', 'Feb 2018', 'Nov 2018'])`

In [None]:
import pandas as pd
# Entrada
serie = pd.Series(['Jan 2010', 'Feb 2011', 'Nov 2012'])


## 20 - Filtrar emails dada una expresión regular de una serie de emails.
`pista: match(...) `

`patron ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'`

In [None]:
# Entrada
emails = pd.Series(['Compra libros en amazom.com', 'asdfageses@egydfpt.com', 'mad@t.co', 'ndfgfsra@gmail.com'])

# # Solución
# import re
# patron ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'
# mascara = emails.map(lambda x: bool(re.match(patron, x)))
# emails[mascara]

## 21 - Dentro de una serie, reemplace los espacios que faltan en una cadena con el carácter menos frecuente.
`pista:  value_counts(), dropna()`

`entrada: cadena = 'dsdf eeee fsdf dfs'`


In [None]:
# Entrada
cadena = 'dsdf eeee fsdf dfs'



## 22 - Lea un fichero .csv
`pista: read_csv()`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

## 23 - Lea el fichero anterior y si la columna `'medv' (median house value)` es superior a 50 colocar 'high'  y si es menor a 50 colocar 'low'.
`pista:  reac_csv(...,converters={})`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

## 24 - Lea el fichero anterior pero solo cargue las columnas 'crim' y 'medv'.
`pista: read_csv(...,usecols=[...]) `

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

## 25 - Lea un fichero CSV y obtenga el número de filas y columnas.
`pista:  shape`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

## 25 - Lea un fichero CSV y obtenga la información del tipo de sus columnas que tiene.
`pista:  dtypes`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

## 27 - Describe los atributos del `dataset` cargado por el CSV.
`pista:  describe`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

## 28 - Cuente el número de valores `'missing'` en cada columna.
`pista: .isnull()`

`Cambio de dataset - URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`

## 29 - Reemplazar los valores nulos encontrados en las columnas `'Min.Price'` y `'Max.Price'` por la media de esa columna.
`pista:  fillna(... mean())`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`



## 30 - Obten las filas múltiplos de 5 de un fichero CSV.
`pista:  iloc`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`
