## 1 - Importa el paquete con el nombre "pd".

`pista: import … as …`
```python
# [EJEMPLO]
# -- CODIGO --
import pandas as pd
```

In [1]:
import pandas as pd

## 2 - Imprime la versión instalada.

`pista: __version__ `
```python
# [EJEMPLO]
# -- CODIGO --
print(pd.__version__)
```

In [2]:
print(pd.__version__)


2.2.3


## 3 - Cree una serie desde un diccionario, desde una lista y desde un `numpy` array. 

`pista: pd.Series(...) `
```python
# [EJEMPLO]
# -- CODIGO --
import numpy as np
# Entrada:
mi_lista = list('abcedfghijklmnopqrstuvwxyz')
np_array = np.arange(26)
diccionario = dict(zip(mi_lista, np_array))

# Salida:
ser1 = pd.Series(mi_lista)
ser2 = pd.Series(np_array)
ser3 = pd.Series(diccionario)
print(ser3.head())

# -- RESULTADO --
a    0
b    1
c    2
e    3
d    4
dtype: int64
```

In [3]:
import numpy as np
import pandas as pd

# Entrada:
mi_lista = list('abcdefghijklmnopqrstuvwxyz')
np_array = np.arange(26)
diccionario = {letra: num for letra, num in zip(mi_lista, np_array)}

# Salida:
serie1 = pd.Series(mi_lista)
serie2 = pd.Series(np_array)
serie3 = pd.Series(diccionario)
print(serie3.head())


a    0
b    1
c    2
d    3
e    4
dtype: int32


## 4 - Convierta el índice de una serie a una columna de un `dataframe`
`pista:  to_frame() y reset_index()`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada:
mi_lista = list('abcdefghijklmnopqrstuvwxyz')
np_array = np.arange(26)
diccionario = {letra: num for letra, num in zip(mi_lista, np_array)}

# Salida:
serie = pd.Series(diccionario)
df = serie.to_frame().reset_index()
print(df.head())

# -- RESULTADO --
    index  0
0     a  0
1     b  1
2     c  2
3     d  3
4     e  4
```

In [4]:
# Entrada:
mi_lista = list('abcdefghijklmnopqrstuvwxyz')
np_array = np.arange(26)
diccionario = {indice: num for indice, num in zip(mi_lista, np_array)}
serie = pd.Series(diccionario)

# Salida
df = serie.to_frame().reset_index()
print(df.head())

  index  0
0     a  0
1     b  1
2     c  2
3     d  3
4     e  4


In [5]:
# Salida
df = serie.to_frame().reset_index().rename(columns={'index': 'indice', 0: 'numero'})
print(df.head())

  indice  numero
0      a       0
1      b       1
2      c       2
3      d       3
4      e       4


## 5 - Combine varias series para formar un `dataframe`
`pista:  concat(...) o Dataframe(...)`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada:
serie1 = pd.Series(list('abcdefghijklmnopqrstuvwxyz'))
serie2 = pd.Series(np.arange(26))

# Solución 1:
df1 = pd.concat([serie1, serie2], axis=1)

# Solución 2:
df2 = pd.DataFrame({'Col1': serie1, 'Col2': serie2})
print(df1.head())
print(df2.head())

# -- RESULTADO --
    0  1
0  a  0
1  b  1
2  c  2
3  d  3
4  e  4

    Col1  Col2
0    a     0
1    b     1
2    c     2
3    d     3
4    e     4
```

In [6]:
# Entrada:
serie1 = pd.Series(list('abcdefghijklmnopqrstuvwxyz'))
serie2 = pd.Series(np.arange(26))

# Solución 1:
df1 = pd.concat([serie1, serie2], axis=1)

# Solución 2:
df2 = pd.DataFrame({'Col1': serie1, 'Col2': serie2})
print(df1.head())
print(df2.head())

   0  1
0  a  0
1  b  1
2  c  2
3  d  3
4  e  4
  Col1  Col2
0    a     0
1    b     1
2    c     2
3    d     3
4    e     4


## 6 - Obtenga los items de la serie A no presentes en la serie B
`pista: ~ y isin(...)`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

# Solución
ser1[~ser1.isin(ser2)]

# -- RESULTADO --
0    1
1    2
2    3
dtype: int64
```

In [7]:
# Entrada:
serieA = pd.Series([1, 2, 3, 4, 5])
serieB = pd.Series([4, 5, 6, 7, 8])

# Solución:
resultado = serieA[~serieA.isin(serieB)]
print(resultado)

0    1
1    2
2    3
dtype: int64


## 7 - Obtenga la unión e intersección de dos series A y B.
`pista: union1d(...) y intersect1d(...) `
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

# Solución
union = pd.Series(np.union1d(ser1, ser2))
interseccion = pd.Series(np.intersect1d(ser1, ser2))

union
interseccion

# -- RESULTADO --
0    4
1    5
dtype: int64
```

In [8]:
# Entrada:
serieA = pd.Series([1, 2, 3, 4, 5])
serieB = pd.Series([4, 5, 6, 7, 8])

# Solución:
union = pd.Series(np.union1d(serieA, serieB))
interseccion = pd.Series(np.intersect1d(serieA, serieB))


print("Unión:", union)
print("Intersección:", interseccion)

union
interseccion


Unión: 0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
dtype: int64
Intersección: 0    4
1    5
dtype: int64


0    4
1    5
dtype: int64

## 8 - Obtenga el valor mínimo, el percentil 25, la mediana, el percentil 75 y el máximo de una serie
`pista: percentile(...)`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
serie_ejemplo = np.random.RandomState(100)
serie_ejemplo = pd.Series(serie_ejemplo.normal(10, 5, 25))

# Solución
percentiles = np.percentile(serie_ejemplo, q=[0, 25, 50, 75, 100])
percentiles

# -- RESULTADO --
array([ 1.25117263,  7.70986507, 10.92259345, 13.36360403, 18.0949083 ])
```


In [9]:
# Entrada:
serie = np.random.RandomState(100)
serie = pd.Series(np.random.normal(10, 5, 25))

# Solución:
percentiles = np.percentile(serie, q=[0, 25, 50, 75, 100])
print(percentiles)

[ 3.41492204  6.83433262  9.7863749  13.53521315 21.46337805]


## 9 - Obtenga la frecuencia de aparición de los elementos de una lista.

`pista: value_counts()`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
serie = pd.Series(np.take(list('abcdefghijklmnoprstuvwxyz'), np.random.randint(8, size=30)))

# Solución
serie.value_counts()

# -- RESULTADO --
b    5
c    5
d    4
e    4
g    4
h    3
a    3
f    2
dtype: int64
```

In [10]:
# Entrada:
serie = pd.Series(np.random.choice(list('abcdefghijklmnoprstuvwxyz'), 30))

# Solución:
frecuencia = serie.value_counts()
print(frecuencia)

r    3
f    3
x    2
s    2
k    2
u    2
g    2
j    2
n    2
v    1
m    1
l    1
w    1
c    1
i    1
d    1
t    1
p    1
z    1
Name: count, dtype: int64


## 10 - Mantenga de una lista los 3 términos que más aparecen. Renombre el resto de elementos a "otros".
`pista: isin(...)`

```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
np.random.RandomState(100)
ser = pd.Series(np.random.randint(1, 5, [12]))

# Solución
print("Top 3:", ser.value_counts())
ser[~ser.isin(ser.value_counts().index[:3])] = 'Otros'
ser

# -- RESULTADO --
Top 3: 3    4
2    3
1    3
4    2
dtype: int64

0         2
1         2
2         2
3         1
4         3
5         3
6     Otros
7     Otros
8         1
9         3
10        3
11        1
dtype: object

```


In [11]:
# Entrada:
serie = pd.Series(np.random.randint(1, 5, [12]))

# Solución:
top3 = serie.value_counts().index[:3]
serie[~serie.isin(top3)] = 'Otros'
print(serie)


0     Otros
1         2
2         2
3         3
4         4
5         4
6         4
7         2
8         2
9         3
10        3
11        3
dtype: object


  serie[~serie.isin(top3)] = 'Otros'


## 11 - Convierta una serie en un `dataframe` con 5 filas y 3 columnas.
`pista: reshape(filas, columnas) `
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
ser = pd.Series(np.random.randint(1, 10, 15))

# Solucion
df = pd.DataFrame(ser.values.reshape(5,3))
print(df)

# -- RESULTADO --
0  1  2
0  6  4  5
1  6  6  6
2  3  8  8
3  1  5  2
4  9  8  6

In [12]:
# Entrada
ser = pd.Series(np.random.randint(1, 10, 15))

# Solucion
df = pd.DataFrame(ser.values.reshape(5,3))
print(df)

   0  1  2
0  5  7  8
1  6  3  5
2  9  8  6
3  7  8  7
4  3  1  8


## 12 - Extraer las de una serie dado una lista de posiciones.
`pista: take(...)`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
ser = pd.Series(list('abcdefghijklmnopqrstuvwxyz'))
pos = [0, 1, 2, 25, 3]

# Solution
ser.take(pos)

# -- RESULTADO --
0     a
1     b
2     c
25    z
3     d
dtype: object
```

In [13]:
# Entrada:
serie = pd.Series(list('abcdefghijklmnopqrstuvwxyz'))
posiciones = [0, 1, 2, 25, 3]

# Solución:
resultado = serie.take(posiciones)
print(resultado)

0     a
1     b
2     c
25    z
3     d
dtype: object


## 13 - Obtener la posición de los items de la serie A en otra serie B.

`pista: where(...)`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
ser1 = pd.Series([10, 9, 6, 5, 3, 1, 12, 8, 13])
ser2 = pd.Series([1, 3, 10, 13])

# Solución 1
[np.where(i == ser1)[0].tolist()[0] for i in ser2]

# Solución 2
[pd.Index(ser1).get_loc(i) for i in ser2]

# -- RESULTADO --
[5, 4, 0, 8]
```

In [14]:
# Entrada:
serieA = pd.Series([10, 9, 6, 5, 3, 1, 12, 8, 13])
serieB = pd.Series([1, 3, 10, 13])

# Solución 1:
posiciones = [np.where(serieA == i)[0][0] for i in serieB]

# Solución 2:
posiciones_alt = [pd.Index(serieA).get_loc(i) for i in serieB]

print("Posiciones (solución 1):", posiciones)
print("Posiciones (solución 2):", posiciones_alt)


Posiciones (solución 1): [5, 4, 0, 8]
Posiciones (solución 2): [5, 4, 0, 8]


### 14 - Calcule el Error Cuadrático Medio (SME en inglés) de dadas dos series.
`pista: mean(...)`
```python
# [EJEMPLO]
# -- CORDIGO --
# Entrada
verdad = pd.Series(range(10))
prediccion = pd.Series(range(10)) + np.random.random(10)

# Solución
np.mean((verdad-prediccion)**2)

# -- RESULTADO --
0.2552852691437278
```

In [15]:
# Entrada:
verdad = pd.Series(range(10))
prediccion = pd.Series(range(10)) + np.random.random(10)

# Solución:
mse = np.mean((verdad - prediccion)**2)
print("MSE:", mse)


MSE: 0.4089582635619543


 ## 15 - Convertir el primer caracter de una serie en mayuúscula.

`pista: title()`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
ser = pd.Series(['hola', 'me', 'llamo', 'Antonio'])

#Solución
pd.Series([i.title() for i in ser])

# -- RESULTADO --
0       Hola
1         Me
2      Llamo
3    Antonio
dtype: object
```

In [16]:
# Entrada:
serie = pd.Series(['hola', 'me', 'llamo', 'Antonio'])

# Solución:
resultado = pd.Series([palabra.capitalize() for palabra in serie])
print(resultado)


0       Hola
1         Me
2      Llamo
3    Antonio
dtype: object


## 16 - Calcular el número de caracteres de cada palabra en una serie.

`pista: map(...), lambda(...) y len(...)`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
ser = pd.Series(['hola', 'me', 'llamo', 'Antonio'])

# Solucion
ser.map(lambda x: len(x))

# -- RESULTADO --
0    4
1    2
2    5
3    7
dtype: int64
```

In [17]:
# Entrada:
serie = pd.Series(['hola', 'me', 'llamo', 'Antonio'])

# Solución:
longitud = serie.map(len)
print(longitud)


0    4
1    2
2    5
3    7
dtype: int64


## 17 - Dada una serie de fechas escritas como cadenas, páselas a `timeseries`.

`pista: to_datetime`

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])

# Solución
pd.to_datetime(ser)

# -- RESULTADO --
0   2012-02-01 00:00:00
1   2011-02-03 00:00:00
2   2015-05-03 00:00:00
3   2016-04-04 00:00:00
4   2018-05-05 00:00:00
5   2018-06-06 12:20:00
dtype: datetime64[ns]
```

In [18]:
# Entrada:
serie = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])

# Solución:
timeseries = pd.to_datetime(serie, format='mixed')
print(timeseries)


0   2012-02-01 00:00:00
1   2011-02-03 00:00:00
2   2015-05-03 00:00:00
3   2016-04-04 00:00:00
4   2018-05-05 00:00:00
5   2018-06-06 12:20:00
dtype: datetime64[ns]


## 18 - Obtenga el día del mes, el número de la semana y el día del año a partir de una serie de cadenas de fechas.
`pista: day.tolist(), weekofyear.tolist() y dayofyear.tolist() `

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])

# Solución
from dateutil.parser import parse
ser_ts = ser.map(lambda x: parse(x))

# Día del mes
print("Fecha: ", ser_ts.dt.day.tolist())
# Semana number
print("Número de semana: ", ser_ts.dt.weekofyear.tolist())
# Día del año
print("Día del año: ", ser_ts.dt.dayofyear.tolist())

# -- RESULTADO --
Fecha:  [1, 3, 3, 4, 5, 6]
Número de semana:  [5, 5, 18, 14, 18, 23]
Día del año:  [32, 34, 123, 95, 125, 157]
/usr/local/lib/python3.7/dist-packages/ipykernel_launcher.py:12: FutureWarning: Series.dt.weekofyear and Series.dt.week have been deprecated.  Please use Series.dt.isocalendar().week instead.
  if sys.path[0] == '':
```

In [19]:
# Entrada:
serie = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])

# Solución:
timeseries = pd.to_datetime(serie, format='mixed')
dias_mes = timeseries.dt.day.tolist()
numero_semana = timeseries.dt.isocalendar().week.tolist()
dias_año = timeseries.dt.dayofyear.tolist()

print("Días del mes:", dias_mes)
print("Número de semana:", numero_semana)
print("Días del año:", dias_año)


Días del mes: [1, 3, 3, 4, 5, 6]
Número de semana: [5, 5, 18, 14, 18, 23]
Días del año: [32, 34, 123, 95, 125, 157]


## 19 - Dado una lista de "mes año", indique el día 15 de cada mes.
`pista: parse(...) `

`serie = pd.Series(['Jan 2018', 'Feb 2018', 'Nov 2018'])`
```python
# [EJEMPLO]
# -- CODIGO --
import pandas as pd

# Entrada
serie = pd.Series(['Jan 2010', 'Feb 2011', 'Nov 2012'])

# Solución 1
from dateutil.parser import parse
# Parse
ser_ts = serie.map(lambda x: parse(x))
ser_datestr = ser_ts.dt.year.astype('str') + '-' + ser_ts.dt.month.astype('str') + '-' + '15'
# Forateo
[parse(i).strftime('%Y-%m-%d') for i in ser_datestr]

# Solución 2
serie.map(lambda x: parse('15 ' + x))

# -- RESULTADO --
0   2010-01-15
1   2011-02-15
2   2012-11-15
dtype: datetime64[ns]
```

In [20]:
# Entrada:
serie = pd.Series(['Jan 2010', 'Feb 2011', 'Nov 2012'])

# Solución:
fechas_15 = serie.map(lambda x: pd.to_datetime('15 ' + x))
print(fechas_15)


0   2010-01-15
1   2011-02-15
2   2012-11-15
dtype: datetime64[ns]


## 20 - Filtrar emails dada una expresión regular de una serie de emails.
`pista: match(...) `

`patron ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
emails = pd.Series(['Compra libros en amazom.com', 'asdfageses@egydfpt.com', 'mad@t.co', 'ndfgfsra@gmail.com'])

# Solución
import re
patron ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'
mascara = emails.map(lambda x: bool(re.match(patron, x)))
emails[mascara]

# -- RESULTADO --
1    asdfageses@egydfpt.com
2                  mad@t.co
3        ndfgfsra@gmail.com
dtype: object
```

In [21]:
# Entrada:
emails = pd.Series(['Compra libros en amazom.com', 'asdfageses@egydfpt.com', 'mad@t.co', 'ndfgfsra@gmail.com'])

# Solución:
patron = '[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'
mascara = emails.str.match(patron)
emails_filtrados = emails[mascara]
print(emails_filtrados)


1    asdfageses@egydfpt.com
2                  mad@t.co
3        ndfgfsra@gmail.com
dtype: object


## 21 - Dentro de una serie, reemplace los espacios que faltan en una cadena con el carácter menos frecuente.
`pista:  value_counts(), dropna()`

`entrada: cadena = 'dsdf eeee fsdf dfs'`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
cadena = 'dsdf eeee fsdf dfs'

# Solucion
ser = pd.Series(list('dbc deb abed gade'))
freq = ser.value_counts()

print(freq)
least_freq = freq.dropna().index[-1]
"".join(ser.replace(' ', least_freq))

# -- RESULTADO --
d    4
b    3
     3
e    3
a    2
c    1
g    1
dtype: int64

'dbcgdebgabedggade'
```

## 22 - Lea un fichero .csv
`pista: read_csv()`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

```python
# [EJEMPLO]
# -- CODIGO --
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', chunksize=50)
df
```

In [22]:
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')
print(df.head())

      crim    zn  indus  chas    nox     rm   age     dis  rad  tax  ptratio  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296     15.3   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242     17.8   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242     17.8   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222     18.7   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222     18.7   

        b  lstat  medv  
0  396.90   4.98  24.0  
1  396.90   9.14  21.6  
2  392.83   4.03  34.7  
3  394.63   2.94  33.4  
4  396.90   5.33  36.2  


## 23 - Lea el fichero anterior y si la columna `'medv' (median house value)` es superior a 50 colocar 'high'  y si es menor a 50 colocar 'low'.
`pista:  reac_csv(...,converters={})`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

```python
# [EJEMPLO]
# -- CODIGO --
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', 
                 converters={'medv': lambda x: 'High' if float(x) > 50 else 'Low'})
```

In [27]:
df2 = converters={'medv': lambda x: 'High' if float(x) > 50 else 'Low'}
print(df.head())

      crim    zn  indus  chas    nox     rm   age     dis  rad  tax  ptratio  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296     15.3   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242     17.8   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242     17.8   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222     18.7   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222     18.7   

        b  lstat medv  
0  396.90   4.98  Low  
1  396.90   9.14  Low  
2  392.83   4.03  Low  
3  394.63   2.94  Low  
4  396.90   5.33  Low  


## 24 - Lea el fichero anterior pero solo cargue las columnas 'crim' y 'medv'.
`pista: read_csv(...,usecols=[...]) `

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

```python
# [EJEMPLO]
# -- CODIGO --
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', usecols=['crim', 'medv'])
```

In [31]:
df3 = df[['crim', 'medv']]
print(df3.head())

      crim medv
0  0.00632  Low
1  0.02731  Low
2  0.02729  Low
3  0.03237  Low
4  0.06905  Low


## 25 - Lea un fichero CSV y obtenga el número de filas y columnas.
`pista:  shape`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

```python
# [EJEMPLO]
# -- CODIGO --
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')
print(df.shape)

# -- RESULTADO --
(506, 14)
```

In [32]:
print("Número de filas y columnas:", df.shape)


Número de filas y columnas: (506, 14)


## 25 - Lea un fichero CSV y obtenga la información del tipo de sus columnas que tiene.
`pista:  dtypes`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`
```python
#  [EJEMPLO]
# -- CODIGO --
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')

# datatypes
print(df.dtypes)

# -- RESULTADO --
crim       float64
zn         float64
indus      float64
chas         int64
nox        float64
rm         float64
age        float64
dis        float64
rad          int64
tax          int64
ptratio    float64
b          float64
lstat      float64
medv       float64
dtype: object
```

In [33]:
print(df.dtypes)


crim       float64
zn         float64
indus      float64
chas         int64
nox        float64
rm         float64
age        float64
dis        float64
rad          int64
tax          int64
ptratio    float64
b          float64
lstat      float64
medv        object
dtype: object


## 27 - Describe los atributos del `dataset` cargado por el CSV.
`pista:  describe`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`
```python
# [EJEMPLO]
# -- CODIGO --
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')
describir = df.describe()
describir
```

In [34]:
print(df.describe())


             crim          zn       indus        chas         nox          rm  \
count  506.000000  506.000000  506.000000  506.000000  506.000000  506.000000   
mean     3.613524   11.363636   11.136779    0.069170    0.554695    6.284634   
std      8.601545   23.322453    6.860353    0.253994    0.115878    0.702617   
min      0.006320    0.000000    0.460000    0.000000    0.385000    3.561000   
25%      0.082045    0.000000    5.190000    0.000000    0.449000    5.885500   
50%      0.256510    0.000000    9.690000    0.000000    0.538000    6.208500   
75%      3.677083   12.500000   18.100000    0.000000    0.624000    6.623500   
max     88.976200  100.000000   27.740000    1.000000    0.871000    8.780000   

              age         dis         rad         tax     ptratio           b  \
count  506.000000  506.000000  506.000000  506.000000  506.000000  506.000000   
mean    68.574901    3.795043    9.549407  408.237154   18.455534  356.674032   
std     28.148861    2.1057

## 28 - Cuente el número de valores `'missing'` en cada columna.
`pista: .isnull()`

`Cambio de dataset - URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`
```python
# [EJEMPLO]
# -- CODIGO --
# entrada
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

# Solucion
missing_por_columna = df.apply(lambda x: x.isnull().sum())
missing_por_columna

# -- RESULTADO --
Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags                6
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64
```

In [38]:
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')
missing_values = df.isnull().sum()
print(missing_values)


Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags               38
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64


## 29 - Reemplazar los valores nulos encontrados en las columnas `'Min.Price'` y `'Max.Price'` por la media de esa columna.
`pista:  fillna(... mean())`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`
```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

# solucion
solucion = df[['Min.Price', 'Max.Price']] = df[['Min.Price', 'Max.Price']].apply(lambda x: x.fillna(x.mean()))
print(solucion.head())

# -- RESULTADO --
   Min.Price  Max.Price
0  12.900000  18.800000
1  29.200000  38.700000
2  25.900000  32.300000
3  17.118605  44.600000
4  17.118605  21.459091
```

In [40]:
df['Min.Price'] = df['Min.Price'].fillna(df['Min.Price'].mean())
df['Max.Price'] = df['Max.Price'].fillna(df['Max.Price'].mean())
print(df[['Min.Price', 'Max.Price']].head())


   Min.Price  Max.Price
0  12.900000  18.800000
1  29.200000  38.700000
2  25.900000  32.300000
3  17.118605  44.600000
4  17.118605  21.459091


## 30 - Obten las filas múltiplos de 5 de un fichero CSV.
`pista:  iloc`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`

```python
# [EJEMPLO]
# -- CODIGO --
# Entrada
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

# Solucion
print(df.iloc[::5, :])

# -- RESULTADO --
Manufacturer         Model     Type  Min.Price  Price  Max.Price  MPG.city  \
0         Acura       Integra    Small       12.9   15.9       18.8      25.0   
5         Buick       Century  Midsize       14.2   15.7       17.3      22.0   
10     Cadillac       Seville  Midsize       37.5   40.1       42.7      16.0   
15    Chevrolet    Lumina_APV      Van       14.7   16.3       18.0      18.0   
20     Chrysler       LeBaron  Compact       14.5   15.8       17.1      23.0   
25        Dodge       Caravan      Van        NaN   19.0       24.4      17.0   
30         Ford       Festiva    Small        6.9    7.4        7.9      31.0   
35         Ford      Aerostar      Van       14.5   19.9       25.3      15.0   
40        Honda       Prelude   Sporty       17.0   19.8       22.7      24.0   
45      Hyundai        Scoupe      NaN        9.1   10.0       11.0      26.0   
50      Lincoln   Continental  Midsize       33.3   34.3       35.3      17.0   
55        Mazda           MPV      Van       16.6   19.1       21.7      18.0   
60      Mercury        Cougar  Midsize       14.9   14.9       14.9      19.0   
65       Nissan         Quest      Van       16.7   19.1       21.5      17.0   
70   Oldsmobile  Eighty-Eight    Large       19.5   20.7       21.9       NaN   
75      Pontiac    Grand_Prix  Midsize       15.4   18.5       21.6      19.0   
80       Subaru        Loyale    Small       10.5   10.9       11.3      25.0   
85       Toyota         Camry  Midsize       15.2    NaN       21.2      22.0   
90   Volkswagen       Corrado   Sporty       22.9   23.3       23.7      18.0   

    MPG.highway             AirBags DriveTrain  ... Passengers  Length  \
0          31.0                None      Front  ...        5.0   177.0   
5          31.0         Driver only        NaN  ...        6.0   189.0   
10         25.0  Driver & Passenger      Front  ...        5.0   204.0   
15         23.0                None      Front  ...        7.0   178.0   
20         28.0  Driver & Passenger      Front  ...        6.0   183.0   
25         21.0         Driver only        4WD  ...        7.0   175.0   
30         33.0                 NaN      Front  ...        4.0   141.0   
35         20.0         Driver only        4WD  ...        7.0   176.0   
40         31.0  Driver & Passenger      Front  ...        4.0   175.0   
45         34.0                None      Front  ...        4.0   166.0   
50         26.0  Driver & Passenger        NaN  ...        6.0   205.0   
55         24.0                None        4WD  ...        7.0   190.0   
60         26.0                None       Rear  ...        5.0   199.0   
65         23.0                None      Front  ...        7.0   190.0   
70         28.0         Driver only      Front  ...        6.0   201.0   
75         27.0                None      Front  ...        5.0   195.0   
80         30.0                None        4WD  ...        5.0   175.0   
85         29.0         Driver only        NaN  ...        5.0   188.0   
90         25.0                None      Front  ...        4.0   159.0   

    Wheelbase  Width  Turn.circle Rear.seat.room  Luggage.room  Weight  \
0       102.0   68.0         37.0           26.5           NaN  2705.0   
5       105.0   69.0         41.0           28.0          16.0     NaN   
10      111.0   74.0         44.0           31.0           NaN  3935.0   
15      110.0   74.0         44.0           30.5           NaN  3715.0   
20      104.0   68.0         41.0           30.5          14.0  3085.0   
25      112.0   72.0         42.0           26.5           NaN  3705.0   
30       90.0   63.0         33.0           26.0          12.0  1845.0   
35      119.0   72.0         45.0           30.0           NaN  3735.0   
40      100.0   70.0         39.0           23.5           8.0  2865.0   
45       94.0   64.0         34.0           23.5           9.0  2285.0   
50      109.0   73.0         42.0           30.0          19.0  3695.0   
55      110.0   72.0         39.0           27.5           NaN  3735.0   
60      113.0   73.0         38.0           28.0          15.0  3610.0   
65      112.0   74.0         41.0           27.0           NaN  4100.0   
70      111.0   74.0         42.0           31.5          17.0  3470.0   
75      108.0   72.0         41.0           28.5          16.0  3450.0   
80       97.0   65.0         35.0           27.5          15.0  2490.0   
85      103.0   70.0         38.0           28.5          15.0  3030.0   
90       97.0   66.0         36.0           26.0          15.0  2810.0   

     Origin                     Make  
0   non-USA            Acura Integra  
5       USA            Buick Century  
10      USA         Cadillac Seville  
15      USA     Chevrolet Lumina_APV  
20      USA         Chrysler LeBaron  
25      USA            Dodge Caravan  
30      USA             Ford Festiva  
35      USA            Ford Aerostar  
40  non-USA            Honda Prelude  
45  non-USA                      NaN  
50      USA      Lincoln Continental  
55  non-USA                Mazda MPV  
60      USA           Mercury Cougar  
65  non-USA             Nissan Quest  
70      USA  Oldsmobile Eighty-Eight  
75      USA       Pontiac Grand_Prix  
80  non-USA            Subaru Loyale  
85  non-USA             Toyota Camry  
90  non-USA       Volkswagen Corrado  

[19 rows x 27 columns]
```

In [41]:
filas_multiplo_5 = df.iloc[::5, :]
print(filas_multiplo_5)


   Manufacturer         Model     Type  Min.Price  Price  Max.Price  MPG.city  \
0         Acura       Integra    Small  12.900000   15.9       18.8      25.0   
5         Buick       Century  Midsize  14.200000   15.7       17.3      22.0   
10     Cadillac       Seville  Midsize  37.500000   40.1       42.7      16.0   
15    Chevrolet    Lumina_APV      Van  14.700000   16.3       18.0      18.0   
20     Chrysler       LeBaron  Compact  14.500000   15.8       17.1      23.0   
25        Dodge       Caravan      Van  17.118605   19.0       24.4      17.0   
30         Ford       Festiva    Small   6.900000    7.4        7.9      31.0   
35         Ford      Aerostar      Van  14.500000   19.9       25.3      15.0   
40        Honda       Prelude   Sporty  17.000000   19.8       22.7      24.0   
45      Hyundai        Scoupe      NaN   9.100000   10.0       11.0      26.0   
50      Lincoln   Continental  Midsize  33.300000   34.3       35.3      17.0   
55        Mazda           MP