#Colección de ejercicios de Pandas

## 1 - Importa el paquete con el nombre "pd".

`pista: import … as …`


In [1]:
import pandas as pd

## 2 - Imprime la versión instalada.

`pista: __version__ `


In [2]:
pd.__version__


'2.2.3'

## 3 - Cree una serie desde un diccionario, desde una lista y desde un `numpy` array. 

`pista: pd.Series(...) `

In [3]:
dicc = {'a': 1, 'b': 2, 'c': 3}
pd.Series(dicc)

a    1
b    2
c    3
dtype: int64

In [4]:
lista = [1,2,3,4,5]
pd.Series(lista)

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [5]:
import numpy as np
array = np.array([10, 20, 30, 40])
pd.Series(array)

0    10
1    20
2    30
3    40
dtype: int64

## 4 - Convierta el índice de una serie a una columna de un `dataframe`
`pista:  to_frame() y reset_index()`

In [6]:
# Crear una Serie
serie = pd.Series([10, 20, 30], index=['a', 'b', 'c'], name="Valores")
print(serie)


a    10
b    20
c    30
Name: Valores, dtype: int64


In [7]:
serie.to_frame()

Unnamed: 0,Valores
a,10
b,20
c,30


## 5 - Combine varias series para formar un `dataframe`
`pista:  concat(...) o Dataframe(...)`

In [8]:
# Crear varias series
serie1 = pd.Series([1, 2, 3])
serie2 = pd.Series([4, 5, 6])
serie3 = pd.Series([7, 8, 9])

pd.concat([serie1, serie2, serie3], axis=1)


Unnamed: 0,0,1,2
0,1,4,7
1,2,5,8
2,3,6,9


In [9]:
# Al crear series, tambien lo podemos dar nombre a las columnas
serie1 = pd.Series([1, 2, 3], name="Columna1")
serie2 = pd.Series([4, 5, 6], name="Columna2")
serie3 = pd.Series([7, 8, 9], name="Columna3")

# Combinar las series en un DataFrame usando concat
df_concat = pd.concat([serie1, serie2, serie3], axis=1)

print(df_concat)



   Columna1  Columna2  Columna3
0         1         4         7
1         2         5         8
2         3         6         9


In [10]:
# Crear un DataFrame directamente desde las series, si las columnas no tuvieran nombre da errror.
df_dataframe = pd.DataFrame({
    'Columna1': serie1,
    'Columna2': serie2,
    'Columna3': serie3
})

print(df_dataframe)


   Columna1  Columna2  Columna3
0         1         4         7
1         2         5         8
2         3         6         9


## 6 - Obtenga los items de la serie A no presentes en la serie B
`pista: ~ y isin(...)`


In [11]:
A = pd.Series([1,2,3,4,5])
B = pd.Series([4,5,6,7,8])

items_A_no_B = A[~A.isin(B)]
print(items_A_no_B)

0    1
1    2
2    3
dtype: int64


## 7 - Obtenga la unión e intersección de dos series A y B.
`pista: union1d(...) y intersect1d(...) `

In [12]:
union = np.union1d(A, B)
print(union)

interseccion = np.intersect1d(A, B)
print(interseccion)

[1 2 3 4 5 6 7 8]
[4 5]


## 8 - Obtenga el valor mínimo, el percentil 25, la mediana, el percentil 75 y el máximo de una serie
`pista: percentile(...)`

In [13]:
min = A.min()
percentile_25 = np.percentile(A, 25)
mediana = A.median()
percentile_75 = np.percentile(A, 75)
max = A.max()
print(min)
print(percentile_25)
print(mediana)
print(percentile_75)
print(max)

1
2.0
3.0
4.0
5


## 9 - Obtenga la frecuencia de aparición de los elementos de una lista.

`pista: value_counts()`

In [14]:
lista = [1,2,3,4,5,6,6,6,7,7,7,8,8,8,9]
print(lista)

serie = pd.Series(lista)
print(serie)

frecuencia = serie.value_counts()
print(frecuencia)

[1, 2, 3, 4, 5, 6, 6, 6, 7, 7, 7, 8, 8, 8, 9]
0     1
1     2
2     3
3     4
4     5
5     6
6     6
7     6
8     7
9     7
10    7
11    8
12    8
13    8
14    9
dtype: int64
6    3
7    3
8    3
1    1
2    1
3    1
4    1
5    1
9    1
Name: count, dtype: int64


## 10 - Mantenga de una lista los 3 términos que más aparecen. Renombre el resto de elementos a "otros".
`pista: isin(...)`

In [15]:
top_3 = serie.value_counts().nlargest(3).index
print(top_3)

serie_otros = serie.where(serie.isin(top_3), other="otros")
print(serie_otros)

Index([6, 7, 8], dtype='int64')
0     otros
1     otros
2     otros
3     otros
4     otros
5         6
6         6
7         6
8         7
9         7
10        7
11        8
12        8
13        8
14    otros
dtype: object


## 11 - Convierta una serie en un `dataframe` con 5 filas y 3 columnas.
`pista: reshape(filas, columnas) `

In [16]:
serie = pd.Series(range(1,16))
print(serie)

serie_df = pd.DataFrame(serie)
serie_df

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
12    13
13    14
14    15
dtype: int64


Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


## 12 - Extraer los elementos de una serie dado una lista de posiciones.
`pista: take(...)`

In [51]:
#quiero saber las posiciones 3 y 5 de la serie anterior
serie_posiciones = pd.Series([1,2,3,4,5,6,7,8,9,10])
posiciones = [3, 5]
serie_posiciones.take(posiciones)

3    4
5    6
dtype: int64

In [52]:
#podemos hacerlo todo a la vez, llamando directamente a las posiciones desde el take
serie_posiciones.take([3, 5])

3    4
5    6
dtype: int64

## 13 - Obtener la posición de los items de la serie A en otra serie B.

`pista: where(...)`

In [17]:
# buscar las POSICIONES, para esto voy a usar index tambien, porque quiero la posición, no el valor
# creo las series
serie_A = pd.Series([1,2,3,4,5,6])
serie_B = pd.Series([4,5,6,7,8,9])
print(serie_A)
print('---------')
print(serie_B)
print('---------')
# buscar las posiciones de los elementos de A en B
elementos = A.where(A.isin(B)).dropna().index
print(elementos)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
---------
0    4
1    5
2    6
3    7
4    8
5    9
dtype: int64
---------
Index([3, 4], dtype='int64')


In [18]:
# si quisiera saber cuales son los valores, lo haria solamennte con isin
A[A.isin(B)]


3    4
4    5
dtype: int64

### 14 - Calcule el Error Cuadrático Medio (SME en inglés) de dadas dos series.
`pista: mean(...)`

In [19]:
# el SME se calcula como la media de los cuadrados de las diferencias entre los valores de dos series. vamos al lío:
# empiezo por la diferencia de los valores
diferencia = serie_A - serie_B
#ahora hago los cuadrados de la diferencia:
cuadrados = diferencia ** 2
#el MSE = a la media de los cuadrados, entonces tengo que hacer el mean 
mse = cuadrados.mean()
print(f'El MSE es: {mse}')

El MSE es: 9.0


In [20]:
mse_todo_a_la_vez = ((serie_A - serie_B) ** 2).mean()
mse_todo_a_la_vez

np.float64(9.0)

 ## 15 - Convertir el primer caracter de una serie en mayuúscula.

`pista: title()`

In [21]:
#podemos hacerlo con capitalize
serie_minu = pd.Series(['hola', 'me', 'llamo', 'antonio'])
print(serie_minu)
print('----------------')
serie_mayu = serie_minu.str.capitalize()
print(serie_mayu)

0       hola
1         me
2      llamo
3    antonio
dtype: object
----------------
0       Hola
1         Me
2      Llamo
3    Antonio
dtype: object


In [22]:
#tambien con title
serie_mayu2 = serie_minu.str.title()
print(serie_mayu2)

0       Hola
1         Me
2      Llamo
3    Antonio
dtype: object


## 16 - Calcular el número de caracteres de cada palabra en una serie.

`pista: map(...), lambda(...) y len(...)`

In [23]:
#len me da el numero de palabras
len(serie_minu)
caracteres = serie_minu.map(lambda palabra: len(palabra))
print(caracteres)

#serie.map(...): Aplica la función especificada a cada elemento de la serie. 
# Map entra dentro del elemento, primero mira que no sea nulo, y ahi, entra. 'hola' seria 1, pero con map te da el 4, te aplica el len 
# lambda palabra: len(palabra): Define una función que toma cada palabra y devuelve su longitud usando len().

0    4
1    2
2    5
3    7
dtype: int64


## 17 - Dada una serie de fechas escritas como cadenas, páselas a `timeseries`.

`pista: to_datetime`

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`

In [24]:
ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])
print(ser)
print('------------------')

fechas = pd.to_datetime(ser, format='mixed') #ponemos el mixed porque vemos que las fechas tenian diferentes formatos. 
print(fechas)

0         01 Feb 2012
1          02-03-2011
2            20150503
3          2016/04/04
4          2018-05-05
5    2018-06-06T12:20
dtype: object
------------------
0   2012-02-01 00:00:00
1   2011-02-03 00:00:00
2   2015-05-03 00:00:00
3   2016-04-04 00:00:00
4   2018-05-05 00:00:00
5   2018-06-06 12:20:00
dtype: datetime64[ns]


## 18 - Obtenga el día del mes, el número de la semana y el día del año a partir de una serie de cadenas de fechas.
`pista: day.tolist(), weekofyear.tolist() y dayofyear.tolist() `

`serie de ejemplo: ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])`



In [25]:

ser = pd.Series(['01 Feb 2012', '02-03-2011', '20150503', '2016/04/04', '2018-05-05', '2018-06-06T12:20'])

# Convertir las cadenas a objetos datetime
fechas = pd.to_datetime(ser, format='mixed') 

# Obtener el día del mes, el número de la semana y el día del año
dia_mes = fechas.dt.day.tolist()
semana_anio = fechas.dt.isocalendar().week.tolist()  # Para pandas >= 1.1.0
dia_anio = fechas.dt.dayofyear.tolist()

# Mostrar los resultados
print("Día del mes:", dia_mes)
print("Número de la semana:", semana_anio)
print("Día del año:", dia_anio)


Día del mes: [1, 3, 3, 4, 5, 6]
Número de la semana: [5, 5, 18, 14, 18, 23]
Día del año: [32, 34, 123, 95, 125, 157]


## 19 - Dado una lista de "mes año", indique el día 15 de cada mes.
`pista: parse(...) `

`serie = pd.Series(['Jan 2018', 'Feb 2018', 'Nov 2018'])`

In [26]:
serie = pd.Series(['Jan 2018', 'Feb 2018', 'Nov 2018'])

# Convertir las cadenas en fechas con el primer día del mes
fechas = pd.to_datetime(serie, format='%b %Y')

# Reemplazar el día por el día 15
fechas_15 = fechas.map(lambda x: x.replace(day=15))

# Mostrar los resultados
print(fechas_15)


0   2018-01-15
1   2018-02-15
2   2018-11-15
dtype: datetime64[ns]


In [54]:
serie = pd.Series(['Jan 2018', 'Feb 2018', 'Nov 2018'])
# Indicar el día 15 de cada mes
fechas_dia_15 = pd.to_datetime(serie + ' 15')

print("\nFechas correspondientes al día 15 de cada mes:")
print(fechas_dia_15)



Fechas correspondientes al día 15 de cada mes:
0   2018-01-15
1   2018-02-15
2   2018-11-15
dtype: datetime64[ns]


In [55]:
# podemos usar pd.to_datetime() con parse para convertir las cadenas en fechas. Luego, podemos ajustar las fechas para que todas indiquen el día 15.

from dateutil.parser import parse

# Crear la serie con "mes año"
serie = pd.Series(['Jan 2018', 'Feb 2018', 'Nov 2018'])

# Convertir las cadenas en fechas y ajustar al día 15
fechas_d15 = serie.apply(lambda x: parse(x).replace(day=15))

# Mostrar los resultados
print(fechas_d15)


0   2018-01-15
1   2018-02-15
2   2018-11-15
dtype: datetime64[ns]


## 20 - Filtrar emails dada una expresión regular de una serie de emails.
`pista: match(...) `

`patron ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'`

In [27]:

# Crear una serie de correos electrónicos
emails = pd.Series([
    'example@test.com',
    'invalid-email.com',
    'another.email@example.org',
    'test@domain',
    'user+name@domain.co.uk',
    'not-an-email@.com',
    'test123@domain.com'
])

# Definir el patrón de expresión regular para correos electrónicos
patron = r'[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}'

# Filtrar los correos electrónicos que coinciden con el patrón
emails_validos = emails[emails.str.match(patron)]

# Mostrar los resultados
print(emails_validos)


0             example@test.com
2    another.email@example.org
4       user+name@domain.co.uk
6           test123@domain.com
dtype: object


## 21 - Dentro de una serie, reemplace los espacios que faltan en una cadena con el carácter menos frecuente.
`pista:  value_counts(), dropna()`


`entrada: cadena = 'dsdf eeee fsdf dfs'`


In [28]:
# Entrada
cadena = 'dsdf eeee fsdf dfs'

# Solucion
ser = pd.Series(list('dbc deb abed gade'))
freq = ser.value_counts()
print(freq)
least_freq = freq.dropna().index[-1]
print(least_freq)
"".join(ser.replace(' ', least_freq))

d    4
b    3
     3
e    3
a    2
c    1
g    1
Name: count, dtype: int64
g


'dbcgdebgabedggade'

In [29]:
# otra forma

# Entrada
cadena = 'dsdf eeee fsdf dfs'

# Crear una serie a partir de la cadena
serie = pd.Series(list(cadena))

# Contar la frecuencia de cada carácter, ignorando los espacios
frecuencias = serie.value_counts().dropna()

# Obtener el carácter menos frecuente (que no sea un espacio)
menos_frecuente = frecuencias[frecuencias.index != ' '].idxmin()

# Reemplazar los espacios en la cadena con el carácter menos frecuente
cadena_reemplazada = cadena.replace(' ', menos_frecuente)

# Mostrar los resultados
print("Cadena original:", cadena)
print("Cadena modificada:", cadena_reemplazada)


Cadena original: dsdf eeee fsdf dfs
Cadena modificada: dsdfseeeesfsdfsdfs


## 22 - Lea un fichero .csv
`pista: read_csv()`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [30]:
df_csv = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')

## 23 - Lea el fichero anterior y si la columna `'medv' (median house value)` es superior a 50 colocar 'high'  y si es menor a 50 colocar 'low'.
`pista:  reac_csv(...,converters={})`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [31]:
df_csv.head(5)

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [32]:
df_csv['medv'] = df_csv['medv'].apply(lambda x: 'high' if x > 50 else 'low')
print(df_csv.head())

      crim    zn  indus  chas    nox     rm   age     dis  rad  tax  ptratio  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296     15.3   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242     17.8   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242     17.8   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222     18.7   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222     18.7   

        b  lstat medv  
0  396.90   4.98  low  
1  396.90   9.14  low  
2  392.83   4.03  low  
3  394.63   2.94  low  
4  396.90   5.33  low  


In [33]:

url = "https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv"

# Leer el CSV y convertir la columna 'medv'
data = pd.read_csv(url, converters={'medv': lambda x: 'high' if float(x) > 50 else 'low'})

# Mostrar los primeros registros del DataFrame
print(data.head())




      crim    zn  indus  chas    nox     rm   age     dis  rad  tax  ptratio  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296     15.3   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242     17.8   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242     17.8   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222     18.7   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222     18.7   

        b  lstat medv  
0  396.90   4.98  low  
1  396.90   9.14  low  
2  392.83   4.03  low  
3  394.63   2.94  low  
4  396.90   5.33  low  


## 24 - Lea el fichero anterior pero solo cargue las columnas 'crim' y 'medv'.
`pista: read_csv(...,usecols=[...]) `

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [34]:
# URL del archivo CSV
url = "https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv"

# Leer el archivo CSV solo con las columnas 'crim' y 'medv'
df_filtered = pd.read_csv(url, usecols=['crim', 'medv'])

# Mostrar los primeros registros del DataFrame
print(df_filtered.head())


      crim  medv
0  0.00632  24.0
1  0.02731  21.6
2  0.02729  34.7
3  0.03237  33.4
4  0.06905  36.2


## 25 - Lea un fichero CSV y obtenga el número de filas y columnas.
`pista:  shape`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [35]:
url = "https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv"
df_url = pd.read_csv(url)
df_url.shape



(506, 14)

## 25 - Lea un fichero CSV y obtenga la información del tipo de sus columnas que tiene.
`pista:  dtypes`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [36]:
df_url.dtypes

crim       float64
zn         float64
indus      float64
chas         int64
nox        float64
rm         float64
age        float64
dis        float64
rad          int64
tax          int64
ptratio    float64
b          float64
lstat      float64
medv       float64
dtype: object

## 27 - Describe los atributos del `dataset` cargado por el CSV.
`pista:  describe`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv`

In [56]:
df_url.describe().round(2)

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.61,11.36,11.14,0.07,0.55,6.28,68.57,3.8,9.55,408.24,18.46,356.67,12.65,22.53
std,8.6,23.32,6.86,0.25,0.12,0.7,28.15,2.11,8.71,168.54,2.16,91.29,7.14,9.2
min,0.01,0.0,0.46,0.0,0.38,3.56,2.9,1.13,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.08,0.0,5.19,0.0,0.45,5.89,45.02,2.1,4.0,279.0,17.4,375.38,6.95,17.02
50%,0.26,0.0,9.69,0.0,0.54,6.21,77.5,3.21,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.68,12.5,18.1,0.0,0.62,6.62,94.07,5.19,24.0,666.0,20.2,396.22,16.96,25.0
max,88.98,100.0,27.74,1.0,0.87,8.78,100.0,12.13,24.0,711.0,22.0,396.9,37.97,50.0


## 28 - Cuente el número de valores `'missing'` en cada columna.
`pista: .isnull()`

`Cambio de dataset - URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`

In [38]:
urlcars93 = 'https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv'
df_urlcars93 = pd.read_csv(urlcars93)
df_urlcars93.head()


Unnamed: 0,Manufacturer,Model,Type,Min.Price,Price,Max.Price,MPG.city,MPG.highway,AirBags,DriveTrain,...,Passengers,Length,Wheelbase,Width,Turn.circle,Rear.seat.room,Luggage.room,Weight,Origin,Make
0,Acura,Integra,Small,12.9,15.9,18.8,25.0,31.0,,Front,...,5.0,177.0,102.0,68.0,37.0,26.5,,2705.0,non-USA,Acura Integra
1,,Legend,Midsize,29.2,33.9,38.7,18.0,25.0,Driver & Passenger,Front,...,5.0,195.0,115.0,71.0,38.0,30.0,15.0,3560.0,non-USA,Acura Legend
2,Audi,90,Compact,25.9,29.1,32.3,20.0,26.0,Driver only,Front,...,5.0,180.0,102.0,67.0,37.0,28.0,14.0,3375.0,non-USA,Audi 90
3,Audi,100,Midsize,,37.7,44.6,19.0,26.0,Driver & Passenger,,...,6.0,193.0,106.0,,37.0,31.0,17.0,3405.0,non-USA,Audi 100
4,BMW,535i,Midsize,,30.0,,22.0,30.0,,Rear,...,4.0,186.0,109.0,69.0,39.0,27.0,13.0,3640.0,non-USA,BMW 535i


In [39]:
df_urlcars93.isnull().sum()

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags               38
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

## 29 - Reemplazar los valores nulos encontrados en las columnas `'Min.Price'` y `'Max.Price'` por la media de esa columna.
`pista:  fillna(... mean())`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`



In [40]:
URL = 'https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv'
df = pd.read_csv(URL)
df.head()

Unnamed: 0,Manufacturer,Model,Type,Min.Price,Price,Max.Price,MPG.city,MPG.highway,AirBags,DriveTrain,...,Passengers,Length,Wheelbase,Width,Turn.circle,Rear.seat.room,Luggage.room,Weight,Origin,Make
0,Acura,Integra,Small,12.9,15.9,18.8,25.0,31.0,,Front,...,5.0,177.0,102.0,68.0,37.0,26.5,,2705.0,non-USA,Acura Integra
1,,Legend,Midsize,29.2,33.9,38.7,18.0,25.0,Driver & Passenger,Front,...,5.0,195.0,115.0,71.0,38.0,30.0,15.0,3560.0,non-USA,Acura Legend
2,Audi,90,Compact,25.9,29.1,32.3,20.0,26.0,Driver only,Front,...,5.0,180.0,102.0,67.0,37.0,28.0,14.0,3375.0,non-USA,Audi 90
3,Audi,100,Midsize,,37.7,44.6,19.0,26.0,Driver & Passenger,,...,6.0,193.0,106.0,,37.0,31.0,17.0,3405.0,non-USA,Audi 100
4,BMW,535i,Midsize,,30.0,,22.0,30.0,,Rear,...,4.0,186.0,109.0,69.0,39.0,27.0,13.0,3640.0,non-USA,BMW 535i


In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 27 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Manufacturer        89 non-null     object 
 1   Model               92 non-null     object 
 2   Type                90 non-null     object 
 3   Min.Price           86 non-null     float64
 4   Price               91 non-null     float64
 5   Max.Price           88 non-null     float64
 6   MPG.city            84 non-null     float64
 7   MPG.highway         91 non-null     float64
 8   AirBags             55 non-null     object 
 9   DriveTrain          86 non-null     object 
 10  Cylinders           88 non-null     object 
 11  EngineSize          91 non-null     float64
 12  Horsepower          86 non-null     float64
 13  RPM                 90 non-null     float64
 14  Rev.per.mile        87 non-null     float64
 15  Man.trans.avail     88 non-null     object 
 16  Fuel.tank.

In [42]:
for column in df.columns:
    try:
        df[column] = pd.to_numeric(df[column])
    except:
        continue
    
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 27 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Manufacturer        89 non-null     object 
 1   Model               92 non-null     object 
 2   Type                90 non-null     object 
 3   Min.Price           86 non-null     float64
 4   Price               91 non-null     float64
 5   Max.Price           88 non-null     float64
 6   MPG.city            84 non-null     float64
 7   MPG.highway         91 non-null     float64
 8   AirBags             55 non-null     object 
 9   DriveTrain          86 non-null     object 
 10  Cylinders           88 non-null     object 
 11  EngineSize          91 non-null     float64
 12  Horsepower          86 non-null     float64
 13  RPM                 90 non-null     float64
 14  Rev.per.mile        87 non-null     float64
 15  Man.trans.avail     88 non-null     object 
 16  Fuel.tank.

In [43]:
pd.to_numeric(df['Min.Price'])

0     12.9
1     29.2
2     25.9
3      NaN
4      NaN
      ... 
88    16.6
89    17.6
90    22.9
91    21.8
92    24.8
Name: Min.Price, Length: 93, dtype: float64

In [65]:
df['Min.Price'].fillna(df['Min.Price'].mean())
df['Max.Price'] = df['Max.Price'].fillna(df['Max.Price'].mean())

In [66]:
df['Min.Price'].isnull().sum()

np.int64(7)

In [70]:
# En este caso, la formula estaba bien, pero al verificar los nulos me seguian salliendo 
# Asegurarse de que todos los valores sean numéricos a traves de esta formula
df['Min.Price'] = pd.to_numeric(df['Min.Price'], errors='coerce')
df['Max.Price'] = pd.to_numeric(df['Max.Price'], errors='coerce')


In [68]:
df['Min.Price'].fillna(df['Min.Price'].mean())
df['Max.Price'] = df['Max.Price'].fillna(df['Max.Price'].mean())

In [69]:
df['Min.Price'].isnull().sum()
df['Max.Price'].isnull().sum()

np.int64(0)

## 30 - Obten las filas múltiplos de 5 de un fichero CSV.
`pista:  iloc`

`URL: https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv`


In [72]:
URL = 'https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv'
df = pd.read_csv(URL)
df.head()

Unnamed: 0,Manufacturer,Model,Type,Min.Price,Price,Max.Price,MPG.city,MPG.highway,AirBags,DriveTrain,...,Passengers,Length,Wheelbase,Width,Turn.circle,Rear.seat.room,Luggage.room,Weight,Origin,Make
0,Acura,Integra,Small,12.9,15.9,18.8,25.0,31.0,,Front,...,5.0,177.0,102.0,68.0,37.0,26.5,,2705.0,non-USA,Acura Integra
1,,Legend,Midsize,29.2,33.9,38.7,18.0,25.0,Driver & Passenger,Front,...,5.0,195.0,115.0,71.0,38.0,30.0,15.0,3560.0,non-USA,Acura Legend
2,Audi,90,Compact,25.9,29.1,32.3,20.0,26.0,Driver only,Front,...,5.0,180.0,102.0,67.0,37.0,28.0,14.0,3375.0,non-USA,Audi 90
3,Audi,100,Midsize,,37.7,44.6,19.0,26.0,Driver & Passenger,,...,6.0,193.0,106.0,,37.0,31.0,17.0,3405.0,non-USA,Audi 100
4,BMW,535i,Midsize,,30.0,,22.0,30.0,,Rear,...,4.0,186.0,109.0,69.0,39.0,27.0,13.0,3640.0,non-USA,BMW 535i


In [74]:
filas_multiplos_5 = df.iloc[::5]
filas_multiplos_5

Unnamed: 0,Manufacturer,Model,Type,Min.Price,Price,Max.Price,MPG.city,MPG.highway,AirBags,DriveTrain,...,Passengers,Length,Wheelbase,Width,Turn.circle,Rear.seat.room,Luggage.room,Weight,Origin,Make
0,Acura,Integra,Small,12.9,15.9,18.8,25.0,31.0,,Front,...,5.0,177.0,102.0,68.0,37.0,26.5,,2705.0,non-USA,Acura Integra
5,Buick,Century,Midsize,14.2,15.7,17.3,22.0,31.0,Driver only,,...,6.0,189.0,105.0,69.0,41.0,28.0,16.0,,USA,Buick Century
10,Cadillac,Seville,Midsize,37.5,40.1,42.7,16.0,25.0,Driver & Passenger,Front,...,5.0,204.0,111.0,74.0,44.0,31.0,,3935.0,USA,Cadillac Seville
15,Chevrolet,Lumina_APV,Van,14.7,16.3,18.0,18.0,23.0,,Front,...,7.0,178.0,110.0,74.0,44.0,30.5,,3715.0,USA,Chevrolet Lumina_APV
20,Chrysler,LeBaron,Compact,14.5,15.8,17.1,23.0,28.0,Driver & Passenger,Front,...,6.0,183.0,104.0,68.0,41.0,30.5,14.0,3085.0,USA,Chrysler LeBaron
25,Dodge,Caravan,Van,,19.0,24.4,17.0,21.0,Driver only,4WD,...,7.0,175.0,112.0,72.0,42.0,26.5,,3705.0,USA,Dodge Caravan
30,Ford,Festiva,Small,6.9,7.4,7.9,31.0,33.0,,Front,...,4.0,141.0,90.0,63.0,33.0,26.0,12.0,1845.0,USA,Ford Festiva
35,Ford,Aerostar,Van,14.5,19.9,25.3,15.0,20.0,Driver only,4WD,...,7.0,176.0,119.0,72.0,45.0,30.0,,3735.0,USA,Ford Aerostar
40,Honda,Prelude,Sporty,17.0,19.8,22.7,24.0,31.0,Driver & Passenger,Front,...,4.0,175.0,100.0,70.0,39.0,23.5,8.0,2865.0,non-USA,Honda Prelude
45,Hyundai,Scoupe,,9.1,10.0,11.0,26.0,34.0,,Front,...,4.0,166.0,94.0,64.0,34.0,23.5,9.0,2285.0,non-USA,
