#Colección de ejercicios de Pandas

## 1 - Importa el paquete con el nombre "pd".

`pista: import … as …`


In [2]:
import pandas as pd
import numpy as np



## 2 - Imprime la versión instalada.

`pista: __version__ `


In [3]:
pd.__version__


'2.2.3'

## 3 - Cree una serie desde un diccionario, desde una lista y desde un `numpy` array. 

`pista: pd.Series(...) `

In [4]:
numpy_array = np.array([10, 20, 30, 40, 50]) ##creo el numpy array
series = pd.Series(numpy_array, index=['a', 'b', 'c', 'd', 'e']) ## creo la serie e indico los indices
series


a    10
b    20
c    30
d    40
e    50
dtype: int64

## 4 - Convierta el índice de una serie a una columna de un `dataframe`
`pista:  to_frame() y reset_index()`

In [5]:
datos = {'yamha':10,'honda':8,'suzuki':5} ## creo un diccionario
serie_temporal = pd.Series(datos, name='marca_motos') ##creo serie temporal
df = serie_temporal.reset_index() ##convierto indice a columna de data frame
df


Unnamed: 0,index,marca_motos
0,yamha,10
1,honda,8
2,suzuki,5


## 5 - Combine varias series para formar un `dataframe`
`pista:  concat(...) o Dataframe(...)`

In [6]:
serie1 = pd.Series([1, 2, 3])
serie2 = pd.Series(['A', 'B', 'C'])    ###creo las 2 series
df = pd.concat([serie1, serie2], axis=1)  ##combino las series en un df
df.columns= ['Columna1','Columna2']  ## asigno nombre a las columnas
df

Unnamed: 0,Columna1,Columna2
0,1,A
1,2,B
2,3,C


## 6 - Obtenga los items de la serie A no presentes en la serie B
`pista: ~ y isin(...)`


In [7]:
serie_A = pd.Series([1, 2, 3, 4, 5])
serie_B = pd.Series([4, 5, 6, 7, 8])
resultado = serie_A[~serie_A.isin(serie_B)]  
print(resultado)

0    1
1    2
2    3
dtype: int64


## 7 - Obtenga la unión e intersección de dos series A y B.
`pista: union1d(...) y intersect1d(...) `

In [8]:
serie_A = pd.Series([1, 2, 3, 4, 5])
serie_B = pd.Series([4, 5, 6, 7, 8])

union = pd.Series(np.union1d(serie_A, serie_B))  ## obtener union
interseccion = pd.Series(np.intersect1d(serie_A, serie_B)) ## obtener interseccion

print(union)
print(interseccion)


0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
dtype: int64
0    4
1    5
dtype: int64


## 8 - Obtenga el valor mínimo, el percentil 25, la mediana, el percentil 75 y el máximo de una serie
`pista: percentile(...)`

In [9]:
serie = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
minimo = serie.min()    ##serie.min(): Obtiene el valor mínimo de la serie.
percentil_25 = np.percentile(serie, 25) ##Calcula el percentil p de la serie. Aquí se utiliza para calcular el percentil 25, la mediana (50) y el percentil 75.
mediana = np.percentile(serie, 50)  
percentil_75 = np.percentile(serie, 75)
maximo = serie.max()

print("Valor Mínimo:", minimo)   
print("Percentil 25:", percentil_25)
print("Mediana (Percentil 50):", mediana)
print("Percentil 75:", percentil_75)
print("Valor Máximo:", maximo)

Valor Mínimo: 1
Percentil 25: 3.25
Mediana (Percentil 50): 5.5
Percentil 75: 7.75
Valor Máximo: 10


## 9 - Obtenga la frecuencia de aparición de los elementos de una lista.

`pista: value_counts()`

In [10]:
lista = ['coche','moto','bicicleta','moto','bus','coche',]
serie = pd.Series(lista) ### Convierto la lista a una serie  
frecuencia = serie.value_counts() ## Obtengo la frecuencia de los elementos
frecuencia

coche        2
moto         2
bicicleta    1
bus          1
Name: count, dtype: int64

## 10 - Mantenga de una lista los 3 términos que más aparecen. Renombre el resto de elementos a "otros".
`pista: isin(...)`

In [11]:
lista = ['manzana', 'banana', 'manzana', 'naranja', 'banana', 'banana', 'kiwi', 'naranja', 'pera', 'uva', 'kiwi', 'kiwi']
serie = pd.Series(lista) #### Convierto la lista a una serie
top_3 = serie.value_counts().nlargest(3).index.tolist()  #### Obtenengo los 3 términos que más aparecen
resultado = serie.where(serie.isin(top_3), other='otros')  ###creo con isin una nueva serie con los términos seleccionados y renombro el resto a "otros"
resultado 





0     manzana
1      banana
2     manzana
3       otros
4      banana
5      banana
6        kiwi
7       otros
8       otros
9       otros
10       kiwi
11       kiwi
dtype: object

## 11 - Convierta una serie en un `dataframe` con 5 filas y 3 columnas.
`pista: reshape(filas, columnas) `

In [12]:
serie = pd.Series(range(1, 16))
df = pd.DataFrame(serie.values.reshape(5, 3), columns=['Columna1', 'Columna2', 'Columna3'])  
## Convertir la serie en un DataFrame con 5 filas y 3 columnas  
df

Unnamed: 0,Columna1,Columna2,Columna3
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12
4,13,14,15


## 12 - Extraer los elementos de una serie dado una lista de posiciones.
`pista: take(...)`

In [13]:
serie = pd.Series(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
posiciones = [0, 2, 5] ## Defino las posiciones que voy a extrar
resultado = serie.take(posiciones) ##  take para extraer los elementos en las posiciones específicas 
resultado 

0    a
2    c
5    f
dtype: object

## 13 - Obtener la posición de los items de la serie A en otra serie B.

`pista: where(...)`

In [14]:
serie_a = pd.Series(['a', 'b', 'c', 'd', 'e'])  
serie_b = pd.Series(['x', 'a', 'y', 'b', 'z', 'c'])
posiciones = serie_b[serie_b.isin(serie_a)].index  ## Obtenego la posición de los elementos de serie_a en serie_b 
posiciones

Index([1, 3, 5], dtype='int64')

### 14 - Calcule el Error Cuadrático Medio (SME en inglés) de dadas dos series.
`pista: mean(...)`

In [15]:
serie_predicciones = pd.Series([3, -0.5, 2, 7])
serie_verdaderas = pd.Series([2.5, 0.0, 2, 8])
mse = ((serie_predicciones - serie_verdaderas) ** 2).mean() ## calculo el error al cuadrado
print(f"El Error Cuadrático Medio (MSE) es: {mse}")


El Error Cuadrático Medio (MSE) es: 0.375


 ## 15 - Convertir el primer caracter de una serie en mayuúscula.

`pista: title()`

In [16]:
serie = pd.Series(['hola', 'me', 'llamo', 'Antonio'])
serie_mayuscula = serie.str.title()  ## convierto el primer caracater en mayuscula.
serie_mayuscula

0       Hola
1         Me
2      Llamo
3    Antonio
dtype: object

## 16 - Calcular el número de caracteres de cada palabra en una serie.

`pista: map(...), lambda(...) y len(...)`

In [17]:
serie = pd.Series(['hola', 'me', 'llamo', 'Antonio'])
numero_caracteres = serie.map(lambda x: len(x)) ## calculo el número de caracteres
numero_caracteres 


0    4
1    2
2    5
3    7
dtype: int64

## 17 - Dada una serie de fechas escritas como cadenas, páselas a `timeseries`.

`pista: to_datetime`

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`

In [18]:
fechas_str = pd.Series(['2023-01-01', '2023-02-15', '2023-03-30', '2023-04-25'])
fechas_dt = pd.to_datetime(fechas_str)
print(fechas_dt)

0   2023-01-01
1   2023-02-15
2   2023-03-30
3   2023-04-25
dtype: datetime64[ns]


## 18 - Obtenga el día del mes, el número de la semana y el día del año a partir de una serie de cadenas de fechas.
`pista: day.tolist(), weekofyear.tolist() y dayofyear.tolist() `

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`



In [19]:
ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])

dates = pd.to_datetime(ser, errors='coerce')  ## Convertir la serie de cadenas a tipo datetime  

days_of_month = dates.dt.day.tolist()
week_numbers = dates.dt.isocalendar().week.tolist()    ## Obtener el día del mes, el número de la semana y el día del año  
days_of_year = dates.dt.dayofyear.tolist()

print("Día del mes:", days_of_month)
print("Número de la semana:", week_numbers)
print("Día del año:", days_of_year)


Día del mes: [1.0, nan, nan, nan, nan, nan]
Número de la semana: [5, <NA>, <NA>, <NA>, <NA>, <NA>]
Día del año: [32.0, nan, nan, nan, nan, nan]


In [20]:
##### correccion en clase
# Entrada
ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])

# Solución
from dateutil.parser import parse
ser_ts = ser.map(lambda x: parse(x))

# Día del mes
print("Fecha: ", ser_ts.dt.day.tolist())

# Semana number
print("Número de semana: ", ser_ts.dt.isocalendar().week.tolist())

# Día del año
print("Día del año: ", ser_ts.dt.dayofyear.tolist())


Fecha:  [1, 3, 3, 4, 5, 6]
Número de semana:  [5, 5, 18, 14, 18, 23]
Día del año:  [32, 34, 123, 95, 125, 157]


## 19 - Dado una lista de "mes año", indique el día 15 de cada mes.
`pista: parse(...) `

`serie = pd.Series(['Jan 2018', 'Feb 2018', 'Nov 2018'])`

In [21]:
serie = pd.Series(['Jan 2018', 'Feb 2018', 'Nov 2018'])
fechas_dia_15 = pd.to_datetime(serie + ' 15')  ##  Convierto cada elemento de la serie al día 15 del mes correspondiente  
print(fechas_dia_15)

0   2018-01-15
1   2018-02-15
2   2018-11-15
dtype: datetime64[ns]


## 20 - Filtrar emails dada una expresión regular de una serie de emails.
`pista: match(...) `

`patron ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'`

In [22]:
emails = pd.Series(['test.email@example.com', 'invalid-email', 'user@domain.co', 'another.user@domain.com', 'wrong@domain'])
patron = r'[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}'    ### definir el patron para los mail
emails_validos = emails[emails.str.match(patron)]    ### filtar serie usando el patron
print(emails_validos)

0     test.email@example.com
2             user@domain.co
3    another.user@domain.com
dtype: object


## 21 - Dentro de una serie, reemplace los espacios que faltan en una cadena con el carácter menos frecuente.
`pista:  value_counts(), dropna()`

`entrada: cadena = 'dsdf eeee fsdf dfs'`


In [23]:
cadena = 'dsdf eeee fsdf dfs'
serie_caracteres = pd.Series(list(cadena)) ### separo por caracteres
frecuencias = serie_caracteres.value_counts(dropna=True)  ## cuanto frecuencia de cada caracter, excluyendo NaN
caracter_menos_frecuente = frecuencias.idxmin()  ## obtengo el catracter menos frecuente
cadena_reemplazada = cadena.replace(' ', caracter_menos_frecuente) ## reemplazo con el menos frecuente los espacios
print(cadena_reemplazada) 
 


dsdfseeeesfsdfsdfs


## 22 - Lea un fichero .csv
`pista: read_csv()`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [24]:
url = 'https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv'
df = pd.read_csv(url)
print(df.head())

      crim    zn  indus  chas    nox     rm   age     dis  rad  tax  ptratio  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296     15.3   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242     17.8   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242     17.8   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222     18.7   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222     18.7   

        b  lstat  medv  
0  396.90   4.98  24.0  
1  396.90   9.14  21.6  
2  392.83   4.03  34.7  
3  394.63   2.94  33.4  
4  396.90   5.33  36.2  


## 23 - Lea el fichero anterior y si la columna `'medv' (median house value)` es superior a 50 colocar 'high'  y si es menor a 50 colocar 'low'.
`pista:  reac_csv(...,converters={})`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [36]:
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv', usecols=['crim', 'medv'])
df

Unnamed: 0,crim,medv
0,0.00632,24.0
1,0.02731,21.6
2,0.02729,34.7
3,0.03237,33.4
4,0.06905,36.2
...,...,...
501,0.06263,22.4
502,0.04527,20.6
503,0.06076,23.9
504,0.10959,22.0


In [26]:
url = 'https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv'
df = pd.read_csv(url)

def categorize_medv(value):
    return 'high' if value > 50 else 'low'
print(df[['medv']].head())

   medv
0  24.0
1  21.6
2  34.7
3  33.4
4  36.2


## 24 - Lea el fichero anterior pero solo cargue las columnas 'crim' y 'medv'.
`pista: read_csv(...,usecols=[...]) `

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [27]:
df = pd.read_csv(url, usecols=['crim', 'medv'])
df

Unnamed: 0,crim,medv
0,0.00632,24.0
1,0.02731,21.6
2,0.02729,34.7
3,0.03237,33.4
4,0.06905,36.2
...,...,...
501,0.06263,22.4
502,0.04527,20.6
503,0.06076,23.9
504,0.10959,22.0


## 25 - Lea un fichero CSV y obtenga el número de filas y columnas.
`pista:  shape`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [28]:
df = pd.read_csv(url) 
num_filas, num_columnas = df.shape    ## Obtener el número de filas y columnas  
print(f"Número de filas: {num_filas}")
print(f"Número de columnas: {num_columnas}")

Número de filas: 506
Número de columnas: 14


## 25 - Lea un fichero CSV y obtenga la información del tipo de sus columnas que tiene.
`pista:  dtypes`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [29]:
url = 'https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv'
df = pd.read_csv(url)
df.dtypes   ## obtengo tipo de dato


crim       float64
zn         float64
indus      float64
chas         int64
nox        float64
rm         float64
age        float64
dis        float64
rad          int64
tax          int64
ptratio    float64
b          float64
lstat      float64
medv       float64
dtype: object

## 27 - Describe los atributos del `dataset` cargado por el CSV.
`pista:  describe`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [30]:
url = 'https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv'
df = pd.read_csv(url)
df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


## 28 - Cuente el número de valores `'missing'` en cada columna.
`pista: .isnull()`

`Cambio de dataset - URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`

In [37]:
url = 'https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv'
df = pd.read_csv(url)
df.isnull().sum()   ##  Cuento los valores faltantes en cada columna

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags               38
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

## 29 - Reemplazar los valores nulos encontrados en las columnas `'Min.Price'` y `'Max.Price'` por la media de esa columna.
`pista:  fillna(... mean())`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`



In [32]:
url = 'https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv'
df = pd.read_csv(url)

df['Min.Price'] = df['Min.Price'].fillna(df['Min.Price'].mean())  
df['Max.Price'] = df['Max.Price'].fillna(df['Max.Price'].mean())

print(df[['Min.Price', 'Max.Price']].isnull().sum())

Min.Price    0
Max.Price    0
dtype: int64


## 30 - Obten las filas múltiplos de 5 de un fichero CSV.
`pista:  iloc`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`


In [33]:
url = 'https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv'
df = pd.read_csv(url)
df.iloc[5::5]

Unnamed: 0,Manufacturer,Model,Type,Min.Price,Price,Max.Price,MPG.city,MPG.highway,AirBags,DriveTrain,...,Passengers,Length,Wheelbase,Width,Turn.circle,Rear.seat.room,Luggage.room,Weight,Origin,Make
5,Buick,Century,Midsize,14.2,15.7,17.3,22.0,31.0,Driver only,,...,6.0,189.0,105.0,69.0,41.0,28.0,16.0,,USA,Buick Century
10,Cadillac,Seville,Midsize,37.5,40.1,42.7,16.0,25.0,Driver & Passenger,Front,...,5.0,204.0,111.0,74.0,44.0,31.0,,3935.0,USA,Cadillac Seville
15,Chevrolet,Lumina_APV,Van,14.7,16.3,18.0,18.0,23.0,,Front,...,7.0,178.0,110.0,74.0,44.0,30.5,,3715.0,USA,Chevrolet Lumina_APV
20,Chrysler,LeBaron,Compact,14.5,15.8,17.1,23.0,28.0,Driver & Passenger,Front,...,6.0,183.0,104.0,68.0,41.0,30.5,14.0,3085.0,USA,Chrysler LeBaron
25,Dodge,Caravan,Van,,19.0,24.4,17.0,21.0,Driver only,4WD,...,7.0,175.0,112.0,72.0,42.0,26.5,,3705.0,USA,Dodge Caravan
30,Ford,Festiva,Small,6.9,7.4,7.9,31.0,33.0,,Front,...,4.0,141.0,90.0,63.0,33.0,26.0,12.0,1845.0,USA,Ford Festiva
35,Ford,Aerostar,Van,14.5,19.9,25.3,15.0,20.0,Driver only,4WD,...,7.0,176.0,119.0,72.0,45.0,30.0,,3735.0,USA,Ford Aerostar
40,Honda,Prelude,Sporty,17.0,19.8,22.7,24.0,31.0,Driver & Passenger,Front,...,4.0,175.0,100.0,70.0,39.0,23.5,8.0,2865.0,non-USA,Honda Prelude
45,Hyundai,Scoupe,,9.1,10.0,11.0,26.0,34.0,,Front,...,4.0,166.0,94.0,64.0,34.0,23.5,9.0,2285.0,non-USA,
50,Lincoln,Continental,Midsize,33.3,34.3,35.3,17.0,26.0,Driver & Passenger,,...,6.0,205.0,109.0,73.0,42.0,30.0,19.0,3695.0,USA,Lincoln Continental
