#Colección de ejercicios de Pandas

## 1 - Importa el paquete con el nombre "pd".

`pista: import … as …`


In [None]:
import pandas as pd

## 2 - Imprime la versión instalada.

`pista: __version__ `


In [None]:
print(pd.__version__)


1.3.5


##3 - Cree una serie desde un diccionario, desde una lista y desde un `numpy` array. 

`pista: pd.Series(...) `

In [None]:
import numpy as np
# Entrada:
mi_lista = list('abcedfghijklmnopqrstuvwxyz')
np_array = np.arange(26)
diccionario = dict(zip(mi_lista, np_array))

# Salida:
ser1 = pd.Series(mi_lista)
ser2 = pd.Series(np_array)
ser3 = pd.Series(diccionario)
print(ser3.head())

a    0
b    1
c    2
e    3
d    4
dtype: int64


## 4 - Convierta el índice de una serie a una columna de un `dataframe`
`pista:  to_frame() y reset_index()`

In [None]:
# Entrada:
mi_lista = list('abcedfghijklmnopqrstuvwxyz')
np_array = np.arange(26)
diccionario = dict(zip(mi_lista, np_array))
ser3 = pd.Series(diccionario)

# Salida
df = ser3.to_frame().reset_index()
print(df.head())

  index  0
0     a  0
1     b  1
2     c  2
3     e  3
4     d  4


## 5 - Combine varias series para formar un `dataframe`
`pista:  concat(...) o Dataframe(...)`

In [None]:
# Entrada
import numpy as np
ser1 = pd.Series(list('abcedfghijklmnopqrstuvwxyz'))
ser2 = pd.Series(np.arange(26))

# Solución 1
df = pd.concat([ser1, ser2], axis=1)

# Solución 2
df = pd.DataFrame({'col1': ser1, 'col2': ser2})
print(df.head())

  col1  col2
0    a     0
1    b     1
2    c     2
3    e     3
4    d     4


## 6 - Obtenga los items de la serie A no presentes en la serie B
`pista: ~ y isin(...)`


In [None]:
# Entrada
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

# Solución
ser1[~ser1.isin(ser2)]

0    1
1    2
2    3
dtype: int64

## 7 - Obtenga la unión e intersección de dos series A y B.
`pista: union1d(...) y intersect1d(...) `

In [None]:
# Entrada
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

# Solución
union = pd.Series(np.union1d(ser1, ser2))  
interseccion = pd.Series(np.intersect1d(ser1, ser2))  

union
interseccion

0    4
1    5
dtype: int64

## 8 - Obtenga el valor mínimo, el percentil 25, la mediana, el percentil 75 y el máximo de una serie
`pista: percentile(...)`

In [None]:
# Entrada
serie_ejemplo = np.random.RandomState(100)
serie_ejemplo = pd.Series(serie_ejemplo.normal(10, 5, 25))

# Solución
np.percentile(serie_ejemplo, q=[0, 25, 50, 75, 100])

array([ 1.25117263,  7.70986507, 10.92259345, 13.36360403, 18.0949083 ])

## 9 - Obtenga la frecuencia de aparición de los elementos de una lista.

`pista: value_counts()`

In [None]:
# Entrada
serie = pd.Series(np.take(list('abcdefghijklmnoprstuvwxyz'), np.random.randint(8, size=30)))

# Solucion
serie.value_counts()

b    5
c    5
d    4
e    4
g    4
h    3
a    3
f    2
dtype: int64

## 10 - Mantenga de una lista los 3 términos que más aparecen. Renombre el resto de elementos a "otros".
`pista: isin(...)`

In [None]:
# Entrada
np.random.RandomState(100)
ser = pd.Series(np.random.randint(1, 5, [12]))

# Solución
print("Top 3:", ser.value_counts())
ser[~ser.isin(ser.value_counts().index[:3])] = 'Otros'
ser

Top 3: 3    4
2    3
1    3
4    2
dtype: int64


0         2
1         2
2         2
3         1
4         3
5         3
6     Otros
7     Otros
8         1
9         3
10        3
11        1
dtype: object

## 11 - Convierta una serie en un `dataframe` con 5 filas y 3 columnas.
`pista: reshape(filas, columnas) `

In [None]:
# Entrada
ser = pd.Series(np.random.randint(1, 10, 15))

# Solucion
df = pd.DataFrame(ser.values.reshape(5,3))
print(df)

   0  1  2
0  6  4  5
1  6  6  6
2  3  8  8
3  1  5  2
4  9  8  6


##12 - Extraer las de una serie dado una lista de posiciones.
`pista: take(...)`

In [None]:
# Entrada
ser = pd.Series(list('abcdefghijklmnopqrstuvwxyz'))
pos = [0, 1, 2, 25, 3]

# Solution
ser.take(pos)

0     a
1     b
2     c
25    z
3     d
dtype: object

## 13 - Obtener la posición de los items de la serie A en otra serie B.

`pista: where(...)`

In [None]:
# Entrada
ser1 = pd.Series([10, 9, 6, 5, 3, 1, 12, 8, 13])
ser2 = pd.Series([1, 3, 10, 13])

# Solución 1
[np.where(i == ser1)[0].tolist()[0] for i in ser2]

# Solución 2
[pd.Index(ser1).get_loc(i) for i in ser2]

[5, 4, 0, 8]

### 14 - Calcule el Error Cuadrático Medio (SME en inglés) de dadas dos series.
`pista: mean(...)`

In [None]:
# Entrada
verdad = pd.Series(range(10))
prediccion = pd.Series(range(10)) + np.random.random(10)

# Solución
np.mean((verdad-prediccion)**2)

0.2552852691437278

 ## 15 - Convertir el primer caracter de una serie en mayuúscula.

`pista: title()`

In [None]:
# Entrada
ser = pd.Series(['hola', 'me', 'llamo', 'Antonio'])

#Solución
pd.Series([i.title() for i in ser])

0       Hola
1         Me
2      Llamo
3    Antonio
dtype: object

##16 - Calcular el número de caracteres de cada palabra en una serie.

`pista: map(...), lambda(...) y len(...)`

In [None]:
# Entrada
ser = pd.Series(['hola', 'me', 'llamo', 'Antonio'])

# Solucion
ser.map(lambda x: len(x))

0    4
1    2
2    5
3    7
dtype: int64

## 17 - Dada una serie de fechas escritas como cadenas, páselas a `timeseries`.

`pista: to_datetime`

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`

In [None]:
# Entrada
ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])

# Solución
pd.to_datetime(ser)

0   2012-02-01 00:00:00
1   2011-02-03 00:00:00
2   2015-05-03 00:00:00
3   2016-04-04 00:00:00
4   2018-05-05 00:00:00
5   2018-06-06 12:20:00
dtype: datetime64[ns]

## 18 - Obtenga el día del mes, el número de la semana y el día del año a partir de una serie de cadenas de fechas.
`pista: day.tolist(), weekofyear.tolist() y dayofyear.tolist() `

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`



In [None]:
# Entrada
ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])

# Solución
from dateutil.parser import parse
ser_ts = ser.map(lambda x: parse(x))

# Día del mes
print("Fecha: ", ser_ts.dt.day.tolist())

# Semana number
print("Número de semana: ", ser_ts.dt.weekofyear.tolist())

# Día del año
print("Día del año: ", ser_ts.dt.dayofyear.tolist())


Fecha:  [1, 3, 3, 4, 5, 6]
Número de semana:  [5, 5, 18, 14, 18, 23]
Día del año:  [32, 34, 123, 95, 125, 157]


  if sys.path[0] == '':


## 19 - Dado una lista de "mes año", indique el día 15 de cada mes.
`pista: parse(...) `

`serie = pd.Series(['Jan 2018', 'Feb 2018', 'Nov 2018'])`

In [None]:
import pandas as pd
# Entrada
serie = pd.Series(['Jan 2010', 'Feb 2011', 'Nov 2012'])

# Solución 1
from dateutil.parser import parse
# Parse
ser_ts = serie.map(lambda x: parse(x))

ser_datestr = ser_ts.dt.year.astype('str') + '-' + ser_ts.dt.month.astype('str') + '-' + '15'

# Forateo
[parse(i).strftime('%Y-%m-%d') for i in ser_datestr]

# Solución 2
serie.map(lambda x: parse('15 ' + x))

0   2010-01-15
1   2011-02-15
2   2012-11-15
dtype: datetime64[ns]

## 20 - Filtrar emails dada una expresión regular de una serie de emails.
`pista: match(...) `

`patron ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'`

In [None]:
# Entrada
emails = pd.Series(['Compra libros en amazom.com', 'asdfageses@egydfpt.com', 'mad@t.co', 'ndfgfsra@gmail.com'])

# Solución
import re
patron ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'
mascara = emails.map(lambda x: bool(re.match(patron, x)))
emails[mascara]

1    asdfageses@egydfpt.com
2                  mad@t.co
3        ndfgfsra@gmail.com
dtype: object

## 21 - Dentro de una serie, reemplace los espacios que faltan en una cadena con el carácter menos frecuente.
`pista:  value_counts(), dropna()`

`entrada: cadena = 'dsdf eeee fsdf dfs'`


In [None]:
# Entrada
cadena = 'dsdf eeee fsdf dfs'

# Solucion
ser = pd.Series(list('dbc deb abed gade'))
freq = ser.value_counts()
print(freq)
least_freq = freq.dropna().index[-1]
"".join(ser.replace(' ', least_freq))

d    4
b    3
     3
e    3
a    2
c    1
g    1
dtype: int64


'dbcgdebgabedggade'

## 22 - Lea un fichero .csv
`pista: read_csv()`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', chunksize=50)
df

<pandas.io.parsers.readers.TextFileReader at 0x7fa70b863690>

## 23 - Lea el fichero anterior y si la columna `'medv' (median house value)` es superior a 50 colocar 'high'  y si es menor a 50 colocar 'low'.
`pista:  reac_csv(...,converters={})`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', 
                 converters={'medv': lambda x: 'High' if float(x) > 50 else 'Low'})

## 24 - Lea el fichero anterior pero solo cargue las columnas 'crim' y 'medv'.
`pista: read_csv(...,usecols=[...]) `

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', usecols=['crim', 'medv'])


## 25 - Lea un fichero CSV y obtenga el número de filas y columnas.
`pista:  shape`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')

print(df.shape)

(506, 14)


## 25 - Lea un fichero CSV y obtenga la información del tipo de sus columnas que tiene.
`pista:  dtypes`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')

# datatypes
print(df.dtypes)

crim       float64
zn         float64
indus      float64
chas         int64
nox        float64
rm         float64
age        float64
dis        float64
rad          int64
tax          int64
ptratio    float64
b          float64
lstat      float64
medv       float64
dtype: object


## 27 - Describe los atributos del `dataset` cargado por el CSV.
`pista:  describe`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')
describir = df.describe()
describir

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


## 28 - Cuente el número de valores `'missing'` en cada columna.
`pista: .isnull()`

`Cambio de dataset - URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`

In [55]:
# entrada
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

# Solucion
missing_por_columna = df.apply(lambda x: x.isnull().sum())
missing_por_columna

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags                6
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

## 29 - Reemplazar los valores nulos encontrados en las columnas `'Min.Price'` y `'Max.Price'` por la media de esa columna.
`pista:  fillna(... mean())`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`



In [56]:
# Entrada
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

# solucion
solucion = df[['Min.Price', 'Max.Price']] = df[['Min.Price', 'Max.Price']].apply(lambda x: x.fillna(x.mean()))
print(solucion.head())

   Min.Price  Max.Price
0  12.900000  18.800000
1  29.200000  38.700000
2  25.900000  32.300000
3  17.118605  44.600000
4  17.118605  21.459091


## 30 - Obten las filas múltiplos de 5 de un fichero CSV.
`pista:  iloc`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`


In [58]:
# Entrada
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

# Solucion
print(df.iloc[::5, :])

   Manufacturer         Model     Type  Min.Price  Price  Max.Price  MPG.city  \
0         Acura       Integra    Small       12.9   15.9       18.8      25.0   
5         Buick       Century  Midsize       14.2   15.7       17.3      22.0   
10     Cadillac       Seville  Midsize       37.5   40.1       42.7      16.0   
15    Chevrolet    Lumina_APV      Van       14.7   16.3       18.0      18.0   
20     Chrysler       LeBaron  Compact       14.5   15.8       17.1      23.0   
25        Dodge       Caravan      Van        NaN   19.0       24.4      17.0   
30         Ford       Festiva    Small        6.9    7.4        7.9      31.0   
35         Ford      Aerostar      Van       14.5   19.9       25.3      15.0   
40        Honda       Prelude   Sporty       17.0   19.8       22.7      24.0   
45      Hyundai        Scoupe      NaN        9.1   10.0       11.0      26.0   
50      Lincoln   Continental  Midsize       33.3   34.3       35.3      17.0   
55        Mazda           MP