#Colección de ejercicios de Pandas

## 1 - Importa el paquete con el nombre "pd".

`pista: import … as …`


In [8]:
import pandas as pd

## 2 - Imprime la versión instalada.

`pista: __version__ `


In [9]:
print("Versión de Pandas instalada:", pd.__version__)


Versión de Pandas instalada: 1.5.3


## 3 - Cree una serie desde un diccionario, desde una lista y desde un `numpy` array. 

`pista: pd.Series(...) `

In [13]:
import pandas as pd
import numpy as np


diccionario = {'a': 1, 'b': 2, 'c': 3}
serie_diccionario = pd.Series(diccionario)
print("Serie desde un diccionario:")
print(serie_diccionario)


lista = [4, 5, 6, 7]
serie_lista = pd.Series(lista)
print("\nSerie desde una lista:")
print(serie_lista)


array_np = np.array([8, 9, 10])
serie_np = pd.Series(array_np)
print("\nSerie desde un array de Numpy:")
print(serie_np)


Serie desde un diccionario:
a    1
b    2
c    3
dtype: int64

Serie desde una lista:
0    4
1    5
2    6
3    7
dtype: int64

Serie desde un array de Numpy:
0     8
1     9
2    10
dtype: int32


## 4 - Convierta el índice de una serie a una columna de un `dataframe`
`pista:  to_frame() y reset_index()`

In [14]:
import pandas as pd

# Crear una serie con un índice personalizado
serie = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])

# Convertir el índice de la serie en una columna de un DataFrame
df = serie.to_frame().reset_index()

# Renombrar las columnas según sea necesario
df.columns = ['index_columna', 'valor_columna']

# Imprimir el DataFrame resultante
print(df)


  index_columna  valor_columna
0             a             10
1             b             20
2             c             30
3             d             40


## 5 - Combine varias series para formar un `dataframe`
`pista:  concat(...) o Dataframe(...)`

In [15]:
import pandas as pd

# Definir varias series
serie1 = pd.Series([1, 2, 3], name='Serie1')
serie2 = pd.Series([4, 5, 6], name='Serie2')
serie3 = pd.Series([7, 8, 9], name='Serie3')

# Combinar las series en un DataFrame utilizando pd.concat()
df = pd.concat([serie1, serie2, serie3], axis=1)

# Imprimir el DataFrame resultante
print(df)


   Serie1  Serie2  Serie3
0       1       4       7
1       2       5       8
2       3       6       9


In [16]:
import pandas as pd

# Definir varias series
serie1 = pd.Series([1, 2, 3], name='Serie1')
serie2 = pd.Series([4, 5, 6], name='Serie2')
serie3 = pd.Series([7, 8, 9], name='Serie3')

# Combinar las series en un DataFrame utilizando pd.DataFrame()
df = pd.DataFrame({'Serie1': serie1, 'Serie2': serie2, 'Serie3': serie3})

# Imprimir el DataFrame resultante
print(df)


   Serie1  Serie2  Serie3
0       1       4       7
1       2       5       8
2       3       6       9


## 6 - Obtenga los items de la serie A no presentes en la serie B
`pista: ~ y isin(...)`


In [17]:
import pandas as pd

# Definir las series A y B
serie_A = pd.Series([1, 2, 3, 4, 5])
serie_B = pd.Series([4, 5, 6, 7, 8])

# Obtener los elementos de la serie A que no están presentes en la serie B
elementos_no_presentes = serie_A[~serie_A.isin(serie_B)]

# Imprimir los elementos no presentes
print("Elementos de la serie A no presentes en la serie B:")
print(elementos_no_presentes)


Elementos de la serie A no presentes en la serie B:
0    1
1    2
2    3
dtype: int64


## 7 - Obtenga la unión e intersección de dos series A y B.
`pista: union1d(...) y intersect1d(...) `

In [18]:
import numpy as np

# Definir las series A y B
serie_A = np.array([1, 2, 3, 4, 5])
serie_B = np.array([4, 5, 6, 7, 8])

# Calcular la unión de las dos series
union = np.union1d(serie_A, serie_B)

# Calcular la intersección de las dos series
interseccion = np.intersect1d(serie_A, serie_B)

# Imprimir la unión y la intersección
print("Unión de las series A y B:", union)
print("Intersección de las series A y B:", interseccion)


Unión de las series A y B: [1 2 3 4 5 6 7 8]
Intersección de las series A y B: [4 5]


In [23]:
import numpy as np
import pandas as pd

# Definir las series ser1 y ser2
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

# Calcular la unión de las dos series
union = np.union1d(ser1, ser2)

# Calcular la intersección de las dos series
interseccion = np.intersect1d(ser1, ser2)

# Imprimir la unión y la intersección
print("Unión de las series ser1 y ser2:", union)
print("Intersección de las series ser1 y ser2:", interseccion)


Unión de las series ser1 y ser2: [1 2 3 4 5 6 7 8]
Intersección de las series ser1 y ser2: [4 5]


In [24]:
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

## 8 - Obtenga el valor mínimo, el percentil 25, la mediana, el percentil 75 y el máximo de una serie
`pista: percentile(...)`

In [19]:
import numpy as np

# Definir la serie
serie = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])

# Calcular los estadísticos descriptivos
valor_minimo = np.min(serie)
percentil_25 = np.percentile(serie, 25)
mediana = np.median(serie)
percentil_75 = np.percentile(serie, 75)
valor_maximo = np.max(serie)

# Imprimir los resultados
print("Valor mínimo:", valor_minimo)
print("Percentil 25:", percentil_25)
print("Mediana:", mediana)
print("Percentil 75:", percentil_75)
print("Valor máximo:", valor_maximo)


Valor mínimo: 10
Percentil 25: 32.5
Mediana: 55.0
Percentil 75: 77.5
Valor máximo: 100


## 9 - Obtenga la frecuencia de aparición de los elementos de una lista.

`pista: value_counts()`

In [20]:
import pandas as pd

# Definir la lista
lista = [1, 2, 3, 2, 3, 4, 5, 2, 3, 3]

# Convertir la lista en una serie de pandas
serie = pd.Series(lista)

# Obtener la frecuencia de aparición de los elementos
frecuencia = serie.value_counts()

# Imprimir los resultados
print("Frecuencia de aparición de los elementos:")
print(frecuencia)


Frecuencia de aparición de los elementos:
3    4
2    3
1    1
4    1
5    1
dtype: int64


## 10 - Mantenga de una lista los 3 términos que más aparecen. Renombre el resto de elementos a "otros".
`pista: isin(...)`

In [21]:
import pandas as pd

# Definir la lista
lista = ['a', 'b', 'c', 'a', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'a']

# Contar la frecuencia de aparición de cada elemento
conteo = pd.Series(lista).value_counts()

# Obtener los tres términos que más aparecen
top_3 = conteo.index[:3]

# Reemplazar los elementos que no están en los tres términos principales con "otros"
for i in range(len(lista)):
    if lista[i] not in top_3:
        lista[i] = 'otros'

# Imprimir la lista resultante
print("Lista con los tres términos más comunes y el resto como 'otros':")
print(lista)


Lista con los tres términos más comunes y el resto como 'otros':
['a', 'b', 'c', 'a', 'a', 'b', 'c', 'otros', 'otros', 'otros', 'otros', 'otros', 'otros', 'otros', 'a']


## 11 - Convierta una serie en un `dataframe` con 5 filas y 3 columnas.
`pista: reshape(filas, columnas) `

In [22]:
import pandas as pd
import numpy as np

# Crear una serie
serie = pd.Series(range(15))  # Crear una serie de 15 elementos

# Convertir la serie en un array de Numpy y luego en un DataFrame
df = pd.DataFrame(np.array(serie).reshape(5, 3))

# Imprimir el DataFrame resultante
print("DataFrame con 5 filas y 3 columnas:")
print(df)


DataFrame con 5 filas y 3 columnas:
    0   1   2
0   0   1   2
1   3   4   5
2   6   7   8
3   9  10  11
4  12  13  14


##12 - Extraer las de una serie dado una lista de posiciones.
`pista: take(...)`

In [25]:
import pandas as pd

# Definir la serie
serie = pd.Series(['a', 'b', 'c', 'd', 'e', 'f', 'g'])

# Definir la lista de posiciones
posiciones = [0, 2, 4]

# Extraer elementos de la serie en las posiciones especificadas
elementos_extraidos = serie.take(posiciones)

# Imprimir los elementos extraídos
print("Elementos extraídos de la serie:")
print(elementos_extraidos)


Elementos extraídos de la serie:
0    a
2    c
4    e
dtype: object


## 13 - Obtener la posición de los items de la serie A en otra serie B.

`pista: where(...)`

In [26]:
import pandas as pd

# Definir las series A y B
serA = pd.Series([1, 2, 3, 4, 5])
serB = pd.Series([3, 4, 6, 7, 8])

# Obtener la posición de los elementos de la serie A en la serie B
posiciones = serB.where(serB.isin(serA)).dropna().index

# Imprimir las posiciones
print("Posiciones de los elementos de la serie A en la serie B:")
print(posiciones)


Posiciones de los elementos de la serie A en la serie B:
Int64Index([0, 1], dtype='int64')


### 14 - Calcule el Error Cuadrático Medio (SME en inglés) de dadas dos series.
`pista: mean(...)`

In [27]:
import numpy as np

# Definir las dos series
serie1 = np.array([1, 2, 3, 4, 5])
serie2 = np.array([1.5, 2.5, 3.5, 4.5, 5.5])  # Supongamos que son las predicciones

# Calcular las diferencias al cuadrado
diferencias_cuadradas = (serie1 - serie2) ** 2

# Calcular el Error Cuadrático Medio (SME)
SME = np.sqrt(np.mean(diferencias_cuadradas))

# Imprimir el SME
print("Error Cuadrático Medio (SME):", SME)


Error Cuadrático Medio (SME): 0.5


 ## 15 - Convertir el primer caracter de una serie en mayuúscula.

`pista: title()`

In [28]:
import pandas as pd

# Definir la serie
serie = pd.Series(['hola', 'mundo', 'python', 'pandas'])

# Convertir el primer carácter de cada elemento en mayúscula
serie_con_mayuscula = serie.str.title()

# Imprimir la serie resultante
print("Serie con el primer carácter en mayúscula:")
print(serie_con_mayuscula)


Serie con el primer carácter en mayúscula:
0      Hola
1     Mundo
2    Python
3    Pandas
dtype: object


## 16 - Calcular el número de caracteres de cada palabra en una serie.

`pista: map(...), lambda(...) y len(...)`

In [29]:
import pandas as pd

# Definir la serie
serie = pd.Series(['hola', 'mundo', 'python', 'pandas'])

# Calcular el número de caracteres de cada palabra
longitudes = serie.map(lambda palabra: len(palabra))

# Imprimir los resultados
print("Número de caracteres de cada palabra:")
print(longitudes)


Número de caracteres de cada palabra:
0    4
1    5
2    6
3    6
dtype: int64


## 17 - Dada una serie de fechas escritas como cadenas, páselas a `timeseries`.

`pista: to_datetime`

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`

In [30]:
import pandas as pd

# Definir la serie de fechas
ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])

# Convertir la serie de fechas a tipo timeseries
timeseries = pd.to_datetime(ser)

# Imprimir la serie timeseries resultante
print("Serie timeseries:")
print(timeseries)


Serie timeseries:
0   2012-02-01 00:00:00
1   2011-02-03 00:00:00
2   2015-05-03 00:00:00
3   2016-04-04 00:00:00
4   2018-05-05 00:00:00
5   2018-06-06 12:20:00
dtype: datetime64[ns]


## 18 - Obtenga el día del mes, el número de la semana y el día del año a partir de una serie de cadenas de fechas.
`pista: day.tolist(), weekofyear.tolist() y dayofyear.tolist() `

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`



## 19 - Dado una lista de "mes año", indique el día 15 de cada mes.
`pista: parse(...) `

`serie = pd.Series(['Jan 2018', 'Feb 2018', 'Nov 2018'])`

## 20 - Filtrar emails dada una expresión regular de una serie de emails.
`pista: match(...) `

`patron ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'`

## 21 - Dentro de una serie, reemplace los espacios que faltan en una cadena con el carácter menos frecuente.
`pista:  value_counts(), dropna()`

`entrada: cadena = 'dsdf eeee fsdf dfs'`


## 22 - Lea un fichero .csv
`pista: read_csv()`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [53]:
import pandas as pd

# Especificar la URL del archivo CSV
url = 'https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv'

# Leer el archivo CSV desde la URL
datos = pd.read_csv(url)

# Mostrar las primeras filas del DataFrame para verificar que se haya cargado correctamente
print(datos.head())


      crim    zn  indus  chas    nox     rm   age     dis  rad  tax  ptratio  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296     15.3   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242     17.8   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242     17.8   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222     18.7   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222     18.7   

        b  lstat  medv  
0  396.90   4.98  24.0  
1  396.90   9.14  21.6  
2  392.83   4.03  34.7  
3  394.63   2.94  33.4  
4  396.90   5.33  36.2  


## 23 - Lea el fichero anterior y si la columna `'medv' (median house value)` es superior a 50 colocar 'high'  y si es menor a 50 colocar 'low'.
`pista:  reac_csv(...,converters={})`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [57]:
import pandas as pd

# Crear un DataFrame con tus datos
data = {
    'b': [396.90, 396.90, 392.83, 394.63, 396.90],
    'lstat': [4.98, 9.14, 4.03, 2.94, 5.33],
    'medv': [24.0, 21.6, 34.7, 33.4, 36.2]
}

df = pd.DataFrame(data)

# Función para clasificar 'high' o 'low'
def classify_medv(medv):
    if medv > 50:
        return 'high'
    else:
        return 'low'

# Aplicar la función a la columna 'medv'
df['medv_class'] = df['medv'].apply(classify_medv)

print(df)


        b  lstat  medv medv_class
0  396.90   4.98  24.0        low
1  396.90   9.14  21.6        low
2  392.83   4.03  34.7        low
3  394.63   2.94  33.4        low
4  396.90   5.33  36.2        low


## 24 - Lea el fichero anterior pero solo cargue las columnas 'crim' y 'medv'.
`pista: read_csv(...,usecols=[...]) `

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

## 25 - Lea un fichero CSV y obtenga el número de filas y columnas.
`pista:  shape`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [58]:
import pandas as pd

# URL del archivo CSV
url = "https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv"

# Leer el archivo CSV y cargar solo las columnas 'crim' y 'medv'
df = pd.read_csv(url, usecols=['crim', 'medv'])

# Mostrar las primeras filas del DataFrame para verificar
print(df.head())


      crim  medv
0  0.00632  24.0
1  0.02731  21.6
2  0.02729  34.7
3  0.03237  33.4
4  0.06905  36.2


## 25 - Lea un fichero CSV y obtenga la información del tipo de sus columnas que tiene.
`pista:  dtypes`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [59]:
import pandas as pd

# URL del archivo CSV
url = "https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv"

# Leer el archivo CSV
df = pd.read_csv(url)

# Obtener información sobre los tipos de datos de las columnas
column_types = df.dtypes

# Mostrar la información
print(column_types)


crim       float64
zn         float64
indus      float64
chas         int64
nox        float64
rm         float64
age        float64
dis        float64
rad          int64
tax          int64
ptratio    float64
b          float64
lstat      float64
medv       float64
dtype: object


## 27 - Describe los atributos del `dataset` cargado por el CSV.
`pista:  describe`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [63]:
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')
describir = df.describe()
describir

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


## 28 - Cuente el número de valores `'missing'` en cada columna.
`pista: .isnull()`

`Cambio de dataset - URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`

In [62]:
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')
df.isnull().sum()

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags                6
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

## 29 - Reemplazar los valores nulos encontrados en las columnas `'Min.Price'` y `'Max.Price'` por la media de esa columna.
`pista:  fillna(... mean())`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`



In [61]:
# Entrada
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

# solucion
solucion = df[['Min.Price', 'Max.Price']] = df[['Min.Price', 'Max.Price']].apply(lambda x: x.fillna(x.mean()))
print(solucion.head())

   Min.Price  Max.Price
0  12.900000  18.800000
1  29.200000  38.700000
2  25.900000  32.300000
3  17.118605  44.600000
4  17.118605  21.459091


## 30 - Obten las filas múltiplos de 5 de un fichero CSV.
`pista:  iloc`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`


In [60]:
# Entrada
df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv')

# Solucion
print(df.iloc[::5, :])

   Manufacturer         Model     Type  Min.Price  Price  Max.Price  MPG.city  \
0         Acura       Integra    Small       12.9   15.9       18.8      25.0   
5         Buick       Century  Midsize       14.2   15.7       17.3      22.0   
10     Cadillac       Seville  Midsize       37.5   40.1       42.7      16.0   
15    Chevrolet    Lumina_APV      Van       14.7   16.3       18.0      18.0   
20     Chrysler       LeBaron  Compact       14.5   15.8       17.1      23.0   
25        Dodge       Caravan      Van        NaN   19.0       24.4      17.0   
30         Ford       Festiva    Small        6.9    7.4        7.9      31.0   
35         Ford      Aerostar      Van       14.5   19.9       25.3      15.0   
40        Honda       Prelude   Sporty       17.0   19.8       22.7      24.0   
45      Hyundai        Scoupe      NaN        9.1   10.0       11.0      26.0   
50      Lincoln   Continental  Midsize       33.3   34.3       35.3      17.0   
55        Mazda           MP