# Colección de ejercicios de Pandas:

## 1 - Importa el paquete con el nombre "pd".

In [2]:
import pandas as pd
import numpy as np

## 2 - Imprime la versión instalada.


In [3]:
pd.__version__


'2.2.3'

## 3 - Cree una serie desde un diccionario, desde una lista y desde un `numpy` array. 

`pista: pd.Series(...) `

In [4]:
diccionario = {'a': 0, 'b': 1, 'c': 2, 'e': 3, 'd': 4}
lista = ['a', 'b', 'c', 'e', 'd']
numpy_array = np.array([0, 1, 2, 3, 4])
serie = pd.Series(diccionario)
pd.Series(lista)
pd.Series(numpy_array)
serie


a    0
b    1
c    2
e    3
d    4
dtype: int64

## 4 - Convierta el índice de una serie a una columna de un `dataframe`

In [5]:
n_serie = serie.reset_index()
n_serie


Unnamed: 0,index,0
0,a,0
1,b,1
2,c,2
3,e,3
4,d,4


## 5 - Combine varias series para formar un `dataframe`

In [6]:
col1 = pd.Series(['a', 'b', 'c', 'e', 'd'], name='col1')
col2 = pd.Series([0, 1, 2, 3, 4], name='col2')

pd.concat((col1,col2), axis=1)




Unnamed: 0,col1,col2
0,a,0
1,b,1
2,c,2
3,e,3
4,d,4


## 6 - Obtenga los items de la serie A no presentes en la serie B


In [7]:
a = pd.Series([0, 1, 2, 3, 4, 5], name='a')
b = pd.Series([4, 5, 6, 7], name='b')

a[~a.isin(b)]



0    0
1    1
2    2
3    3
Name: a, dtype: int64

## 7 - Obtenga la unión e intersección de dos series A y B.

In [8]:
union = np.union1d(a,b)
interseccion = np.intersect1d(a,b)
union   

array([0, 1, 2, 3, 4, 5, 6, 7])

## 8 - Obtenga el valor mínimo, el percentil 25, la mediana, el percentil 75 y el máximo de una serie

In [9]:
val_min = union.min()

percentil_25 = np.percentile(union, [25.0])

mediana = union.mean()

percentil_75 = np.percentile(union, [75.0])

val_max = union.max()



## 9 - Obtenga la frecuencia de aparición de los elementos de una lista.

In [10]:
lista = ['b', 'b', 'b', 'b', 'b', 'c', 'c', 'c', 'c', 'c', 'd', 'd', 'd', 'd', 'e', 'e', 'e', 'e', 'g', 'g', 'g', 'g', 'h', 'h', 'h', 'a', 'a', 'a', 'f', 'f']
lista = pd.Series(lista)
lista.value_counts()

b    5
c    5
d    4
e    4
g    4
h    3
a    3
f    2
Name: count, dtype: int64

## 10 - Mantenga de una lista los 3 términos que más aparecen. Renombre el resto de elementos a "otros".

In [11]:
m_freq = pd.DataFrame(lista).value_counts().head(3).index
for i in range(len(lista)):
    if lista[i] in m_freq:
        pass
    else:
        lista[i] = 'otros'
print(lista)


0         b
1         b
2         b
3         b
4         b
5         c
6         c
7         c
8         c
9         c
10        d
11        d
12        d
13        d
14    otros
15    otros
16    otros
17    otros
18    otros
19    otros
20    otros
21    otros
22    otros
23    otros
24    otros
25    otros
26    otros
27    otros
28    otros
29    otros
dtype: object


## 11 - Convierta una serie en un `dataframe` con 5 filas y 3 columnas.

In [12]:
# Limitamos a una cantidad de datos que entre en las dimensiones 3x5
df = pd.DataFrame(lista[:-15])
np.reshape(df,(5,3))

array([['b', 'b', 'b'],
       ['b', 'b', 'c'],
       ['c', 'c', 'c'],
       ['c', 'd', 'd'],
       ['d', 'd', 'otros']], dtype=object)

## 12 - Extraer los elementos de una serie dado una lista de posiciones.

In [13]:
serie_a = pd.Series(np.random.randint(1, 101, size=10))
serie_b = pd.Series(list("asihcniebdcfoasicaxx"))
serie_c =pd.Series(np.random.randint(1, 101, size=10))

                

In [14]:
lista_posiciones = [1, 3, 5,6]

for i in lista_posiciones:
    if i < len(serie_b):
        elemento = np.take(serie_b, i, axis=0)
        print(f"el elemento {elemento} se encuentra en la posicion {i} ")
    else:
        print("El elemento esta fuera de rango")
        
serie_b.take(lista_posiciones)

el elemento s se encuentra en la posicion 1 
el elemento h se encuentra en la posicion 3 
el elemento n se encuentra en la posicion 5 
el elemento i se encuentra en la posicion 6 


1    s
3    h
5    n
6    i
dtype: object

## 13 - Obtener la posición de los items de la serie A en otra serie B.

In [15]:
valores = [10, 20, 30, 40, 50, 60, 70, 80]
serie1 = pd.Series(valores)
serie2 = pd.Series(valores[::-1])

matches = serie2.where(serie2.isin(serie1)).index
matches.tolist()



[0, 1, 2, 3, 4, 5, 6, 7]

### 14 - Calcule el Error Cuadrático Medio (SME en inglés) de dadas dos series.

In [16]:
ECM = ((serie_a - serie_c)**2).mean()
ECM


np.float64(2088.4)

 ## 15 - Convertir el primer caracter de una serie en mayuúscula.

In [17]:
serie = pd.Series(list("hola mi nombre es carlos como te va".split(" ")))

serie = serie.apply(lambda x: x.title())
    
serie

0      Hola
1        Mi
2    Nombre
3        Es
4    Carlos
5      Como
6        Te
7        Va
dtype: object

## 16 - Calcular el número de caracteres de cada palabra en una serie.

In [18]:
serie.map(lambda x: len(x))

0    4
1    2
2    6
3    2
4    6
5    4
6    2
7    2
dtype: int64

## 17 - Dada una serie de fechas escritas como cadenas, páselas a `timeseries`.


In [19]:
ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])

ser = ser.apply(lambda x: pd.to_datetime(x))
ser

0   2012-02-01 00:00:00
1   2011-02-03 00:00:00
2   2015-05-03 00:00:00
3   2016-04-04 00:00:00
4   2018-05-05 00:00:00
5   2018-06-06 12:20:00
dtype: datetime64[ns]

## 18 - Obtenga el día del mes, el número de la semana y el día del año a partir de una serie de cadenas de fechas.



In [20]:
day = ser.dt.day
month = ser.dt.month
year = ser.dt.year

day, month, year


(0    1
 1    3
 2    3
 3    4
 4    5
 5    6
 dtype: int32,
 0    2
 1    2
 2    5
 3    4
 4    5
 5    6
 dtype: int32,
 0    2012
 1    2011
 2    2015
 3    2016
 4    2018
 5    2018
 dtype: int32)

## 19 - Dado una lista de "mes año", indique el día 15 de cada mes.

In [21]:
serie = pd.Series(['Jan 2018', 'Feb 2018', 'Nov 2018'])

serie.apply(lambda x: pd.to_datetime('15'+ x))

0   2018-01-15
1   2018-02-15
2   2018-11-15
dtype: datetime64[ns]

## 20 - Filtrar emails dada una expresión regular de una serie de emails.
`pista: match(...) `

`patron ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'`

In [22]:
import re
patron ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'

emails = [
    "ejemplo1@gmail.com",
    "contacto.empresa@dominio.org",
    "usuario123@ejemplo.co.uk",
    "nombre.apellido@empresa.edu",
    "prueba-email@sub.dominio.com",
    "cliente_456@servicio.com",
    "mi.correo@universidad.edu",
    "info@empresa-tech.net",
    "soporte@ejemplo.io",
    "nombre@dominio.xyz"
]
valid = [email for email in emails if re.match(patron, email)]
valid
    

['ejemplo1@gmail.com',
 'contacto.empresa@dominio.org',
 'usuario123@ejemplo.co.uk',
 'nombre.apellido@empresa.edu',
 'prueba-email@sub.dominio.com',
 'cliente_456@servicio.com',
 'mi.correo@universidad.edu',
 'info@empresa-tech.net',
 'soporte@ejemplo.io',
 'nombre@dominio.xyz']

## 21 - Dentro de una serie, reemplace los espacios que faltan en una cadena con el carácter menos frecuente.

`entrada: cadena = 'dsdf eeee fsdf dfs'`


In [23]:
cadena = 'dsdf eeee fsdf dfs'
cadena = pd.Series([l if l != ' ' else np.nan for l in cadena])
less_freq = cadena.value_counts(ascending=True).index[0]
cadena.fillna(value= less_freq)



0     d
1     s
2     d
3     f
4     s
5     e
6     e
7     e
8     e
9     s
10    f
11    s
12    d
13    f
14    s
15    d
16    f
17    s
dtype: object

## 22 - Lea un fichero .csv

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [30]:
housing = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')

In [25]:
housing['medv']

0      24.0
1      21.6
2      34.7
3      33.4
4      36.2
       ... 
501    22.4
502    20.6
503    23.9
504    22.0
505    11.9
Name: medv, Length: 506, dtype: float64

## 23 - Lea el fichero anterior y si la columna `'medv' (median house value)` es superior a 50 colocar 'high'  y si es menor a 50 colocar 'low'.

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [26]:
# No me parece que sea relevante marcarlo a 50 ya que no hay ningun valor que sea superior a 50
value = lambda x: 'high' if float(x) > 25 else 'low'
housing = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', converters={'medv':value})
housing.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,low
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,low
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,high
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,high
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,high


## 24 - Lea el fichero anterior pero solo cargue las columnas 'crim' y 'medv'.
`pista: read_csv(...,usecols=[...]) `

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [29]:
housing = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', usecols=['crim', 'medv'])
housing.head()

Unnamed: 0,crim,medv
0,0.00632,24.0
1,0.02731,21.6
2,0.02729,34.7
3,0.03237,33.4
4,0.06905,36.2


## 25 - Lea un fichero CSV y obtenga el número de filas y columnas.
`pista:  shape`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [31]:
housing.shape

(506, 14)

## 25 - Lea un fichero CSV y obtenga la información del tipo de sus columnas que tiene.
`pista:  dtypes`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [32]:
housing.dtypes

crim       float64
zn         float64
indus      float64
chas         int64
nox        float64
rm         float64
age        float64
dis        float64
rad          int64
tax          int64
ptratio    float64
b          float64
lstat      float64
medv       float64
dtype: object

## 27 - Describe los atributos del `dataset` cargado por el CSV.
`pista:  describe`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [34]:
housing.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
crim,506.0,3.613524,8.601545,0.00632,0.082045,0.25651,3.677083,88.9762
zn,506.0,11.363636,23.322453,0.0,0.0,0.0,12.5,100.0
indus,506.0,11.136779,6.860353,0.46,5.19,9.69,18.1,27.74
chas,506.0,0.06917,0.253994,0.0,0.0,0.0,0.0,1.0
nox,506.0,0.554695,0.115878,0.385,0.449,0.538,0.624,0.871
rm,506.0,6.284634,0.702617,3.561,5.8855,6.2085,6.6235,8.78
age,506.0,68.574901,28.148861,2.9,45.025,77.5,94.075,100.0
dis,506.0,3.795043,2.10571,1.1296,2.100175,3.20745,5.188425,12.1265
rad,506.0,9.549407,8.707259,1.0,4.0,5.0,24.0,24.0
tax,506.0,408.237154,168.537116,187.0,279.0,330.0,666.0,711.0


## 28 - Cuente el número de valores `'missing'` en cada columna.

`Cambio de dataset - URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`

In [39]:
cars = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')
cars.isnull().sum()

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags               38
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

## 29 - Reemplazar los valores nulos encontrados en las columnas `'Min.Price'` y `'Max.Price'` por la media de esa columna.

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`



In [48]:
cars['Min.Price'] = cars['Min.Price'].fillna(np.mean(cars['Min.Price']))
cars['Max.Price'] = cars['Max.Price'].fillna(np.mean(cars['Max.Price']))

## 30 - Obten las filas múltiplos de 5 de un fichero CSV.

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`


In [50]:
cars.iloc[5::5] # Slicing syntax

Unnamed: 0,Manufacturer,Model,Type,Min.Price,Price,Max.Price,MPG.city,MPG.highway,AirBags,DriveTrain,...,Passengers,Length,Wheelbase,Width,Turn.circle,Rear.seat.room,Luggage.room,Weight,Origin,Make
5,Buick,Century,Midsize,14.2,15.7,17.3,22.0,31.0,Driver only,,...,6.0,189.0,105.0,69.0,41.0,28.0,16.0,,USA,Buick Century
10,Cadillac,Seville,Midsize,37.5,40.1,42.7,16.0,25.0,Driver & Passenger,Front,...,5.0,204.0,111.0,74.0,44.0,31.0,,3935.0,USA,Cadillac Seville
15,Chevrolet,Lumina_APV,Van,14.7,16.3,18.0,18.0,23.0,,Front,...,7.0,178.0,110.0,74.0,44.0,30.5,,3715.0,USA,Chevrolet Lumina_APV
20,Chrysler,LeBaron,Compact,14.5,15.8,17.1,23.0,28.0,Driver & Passenger,Front,...,6.0,183.0,104.0,68.0,41.0,30.5,14.0,3085.0,USA,Chrysler LeBaron
25,Dodge,Caravan,Van,17.118605,19.0,24.4,17.0,21.0,Driver only,4WD,...,7.0,175.0,112.0,72.0,42.0,26.5,,3705.0,USA,Dodge Caravan
30,Ford,Festiva,Small,6.9,7.4,7.9,31.0,33.0,,Front,...,4.0,141.0,90.0,63.0,33.0,26.0,12.0,1845.0,USA,Ford Festiva
35,Ford,Aerostar,Van,14.5,19.9,25.3,15.0,20.0,Driver only,4WD,...,7.0,176.0,119.0,72.0,45.0,30.0,,3735.0,USA,Ford Aerostar
40,Honda,Prelude,Sporty,17.0,19.8,22.7,24.0,31.0,Driver & Passenger,Front,...,4.0,175.0,100.0,70.0,39.0,23.5,8.0,2865.0,non-USA,Honda Prelude
45,Hyundai,Scoupe,,9.1,10.0,11.0,26.0,34.0,,Front,...,4.0,166.0,94.0,64.0,34.0,23.5,9.0,2285.0,non-USA,
50,Lincoln,Continental,Midsize,33.3,34.3,35.3,17.0,26.0,Driver & Passenger,,...,6.0,205.0,109.0,73.0,42.0,30.0,19.0,3695.0,USA,Lincoln Continental
