# Ejercicios de Lectura de CSV
## Ejercicio 1
Leer el archivo CSV `datos_ejemplo.csv` y mostrar el contenido completo.

In [1]:
import pandas as pd

df = pd.read_csv("datos_ejemplo.csv")

print(df)

   id  firstname   lastname                     email   birthdate
0   1      Kerry  O'Connell         Kerry16@gmail.com  1990-01-01
1   2      Ethel     Miller       Ethel14@hotmail.com  1985-05-12
2   3     Willie     Barton   Willie.Barton@gmail.com  1992-07-23
3   4      Ellis       Lowe      Ellis.Lowe@gmail.com  1988-11-30
4   5    Raymond     Miller  Raymond.Miller@gmail.com  1991-03-15
5   6      Ellen   Thompson       Ellen92@hotmail.com  1987-09-25
6   7        Joe       Rice           Joe55@gmail.com  1993-12-05
7   8  Nathaniel     Legros   Nathaniel40@hotmail.com  1986-04-18
8   9     Maxine   Schinner      Maxine93@hotmail.com  1990-08-22
9  10        Tim   Jacobson         Tim92@hotmail.com  1989-10-10


## Ejercicio 2
Leer el archivo CSV `datos_ejemplo.csv` y mostrar solo las columnas `firstname` y `lastname`.

In [2]:
print(df[['firstname', 'lastname']])

   firstname   lastname
0      Kerry  O'Connell
1      Ethel     Miller
2     Willie     Barton
3      Ellis       Lowe
4    Raymond     Miller
5      Ellen   Thompson
6        Joe       Rice
7  Nathaniel     Legros
8     Maxine   Schinner
9        Tim   Jacobson


## Ejercicio 3
Leer el archivo CSV `datos_ejemplo.csv`, parsear la columna `birthdate` como fechas y establecerla como índice del DataFrame.

In [3]:
df['birthdate'] = pd.to_datetime(df['birthdate'])
df.set_index('birthdate', inplace=True)

print(df)


            id  firstname   lastname                     email
birthdate                                                     
1990-01-01   1      Kerry  O'Connell         Kerry16@gmail.com
1985-05-12   2      Ethel     Miller       Ethel14@hotmail.com
1992-07-23   3     Willie     Barton   Willie.Barton@gmail.com
1988-11-30   4      Ellis       Lowe      Ellis.Lowe@gmail.com
1991-03-15   5    Raymond     Miller  Raymond.Miller@gmail.com
1987-09-25   6      Ellen   Thompson       Ellen92@hotmail.com
1993-12-05   7        Joe       Rice           Joe55@gmail.com
1986-04-18   8  Nathaniel     Legros   Nathaniel40@hotmail.com
1990-08-22   9     Maxine   Schinner      Maxine93@hotmail.com
1989-10-10  10        Tim   Jacobson         Tim92@hotmail.com


# Ejercicios de Selección, Filtrado y Creación de Nuevos DataFrames
## Ejercicio 1
Seleccionar y mostrar solo las filas donde el apellido sea `Miller`.

In [4]:
rows = df[df['lastname'] == 'Miller']
print(rows)


            id firstname lastname                     email
birthdate                                                  
1985-05-12   2     Ethel   Miller       Ethel14@hotmail.com
1991-03-15   5   Raymond   Miller  Raymond.Miller@gmail.com


## Ejercicio 2
Seleccionar y mostrar solo las filas donde la fecha de nacimiento sea posterior a `1990-01-01`.

In [10]:
rows = df[df.index > '1990-01-01']
print(rows)

            id firstname  lastname                     email
birthdate                                                   
1992-07-23   3    Willie    Barton   Willie.Barton@gmail.com
1991-03-15   5   Raymond    Miller  Raymond.Miller@gmail.com
1993-12-05   7       Joe      Rice           Joe55@gmail.com
1990-08-22   9    Maxine  Schinner      Maxine93@hotmail.com


## Ejercicio 3
Crear un nuevo DataFrame con una columna adicional `fullname` que contenga el nombre completo (`firstname` + `lastname`).

In [11]:
df['fullname'] = df['firstname'] + ' ' + df['lastname']
print(df)


            id  firstname   lastname                     email  \
birthdate                                                        
1990-01-01   1      Kerry  O'Connell         Kerry16@gmail.com   
1985-05-12   2      Ethel     Miller       Ethel14@hotmail.com   
1992-07-23   3     Willie     Barton   Willie.Barton@gmail.com   
1988-11-30   4      Ellis       Lowe      Ellis.Lowe@gmail.com   
1991-03-15   5    Raymond     Miller  Raymond.Miller@gmail.com   
1987-09-25   6      Ellen   Thompson       Ellen92@hotmail.com   
1993-12-05   7        Joe       Rice           Joe55@gmail.com   
1986-04-18   8  Nathaniel     Legros   Nathaniel40@hotmail.com   
1990-08-22   9     Maxine   Schinner      Maxine93@hotmail.com   
1989-10-10  10        Tim   Jacobson         Tim92@hotmail.com   

                    fullname  
birthdate                     
1990-01-01   Kerry O'Connell  
1985-05-12      Ethel Miller  
1992-07-23     Willie Barton  
1988-11-30        Ellis Lowe  
1991-03-15    Raymond

## Ejercicio 4
Seleccionar y mostrar solo las filas donde el nombre sea `Ellen`.

In [12]:
rows = df[df['firstname'] == 'Ellen']
print(rows)

            id firstname  lastname                email        fullname
birthdate                                                              
1987-09-25   6     Ellen  Thompson  Ellen92@hotmail.com  Ellen Thompson


## Ejercicio 5
Seleccionar y mostrar solo las filas donde el correo electrónico contenga `gmail.com`.

In [13]:
rows = df[df['email'].str.contains('gmail.com', na=False)]

print(rows)


            id firstname   lastname                     email         fullname
birthdate                                                                     
1990-01-01   1     Kerry  O'Connell         Kerry16@gmail.com  Kerry O'Connell
1992-07-23   3    Willie     Barton   Willie.Barton@gmail.com    Willie Barton
1988-11-30   4     Ellis       Lowe      Ellis.Lowe@gmail.com       Ellis Lowe
1991-03-15   5   Raymond     Miller  Raymond.Miller@gmail.com   Raymond Miller
1993-12-05   7       Joe       Rice           Joe55@gmail.com         Joe Rice


## Ejercicio 6
Crear un nuevo DataFrame con una columna adicional `age` que contenga la edad calculada a partir de la fecha de nacimiento.

In [19]:
df['age'] = (pd.Timestamp.now() - df['birthdate']).dt.days // 365
print(df)


            id  firstname   lastname                     email  \
birthdate                                                        
1990-01-01   1      Kerry  O'Connell         Kerry16@gmail.com   
1985-05-12   2      Ethel     Miller       Ethel14@hotmail.com   
1992-07-23   3     Willie     Barton   Willie.Barton@gmail.com   
1988-11-30   4      Ellis       Lowe      Ellis.Lowe@gmail.com   
1991-03-15   5    Raymond     Miller  Raymond.Miller@gmail.com   
1987-09-25   6      Ellen   Thompson       Ellen92@hotmail.com   
1993-12-05   7        Joe       Rice           Joe55@gmail.com   
1986-04-18   8  Nathaniel     Legros   Nathaniel40@hotmail.com   
1990-08-22   9     Maxine   Schinner      Maxine93@hotmail.com   
1989-10-10  10        Tim   Jacobson         Tim92@hotmail.com   

                    fullname  birthdate  age  
birthdate                                     
1990-01-01   Kerry O'Connell 1990-01-01   35  
1985-05-12      Ethel Miller 1985-05-12   39  
1992-07-23     Will

## Ejercicio 7
Seleccionar y mostrar solo las filas donde la edad sea mayor a 30 años.

In [21]:
rows = df[df['age'] > 30]
print(rows)

            id  firstname   lastname                     email  \
birthdate                                                        
1990-01-01   1      Kerry  O'Connell         Kerry16@gmail.com   
1985-05-12   2      Ethel     Miller       Ethel14@hotmail.com   
1992-07-23   3     Willie     Barton   Willie.Barton@gmail.com   
1988-11-30   4      Ellis       Lowe      Ellis.Lowe@gmail.com   
1991-03-15   5    Raymond     Miller  Raymond.Miller@gmail.com   
1987-09-25   6      Ellen   Thompson       Ellen92@hotmail.com   
1993-12-05   7        Joe       Rice           Joe55@gmail.com   
1986-04-18   8  Nathaniel     Legros   Nathaniel40@hotmail.com   
1990-08-22   9     Maxine   Schinner      Maxine93@hotmail.com   
1989-10-10  10        Tim   Jacobson         Tim92@hotmail.com   

                    fullname  birthdate  age  
birthdate                                     
1990-01-01   Kerry O'Connell 1990-01-01   35  
1985-05-12      Ethel Miller 1985-05-12   39  
1992-07-23     Will

## Ejercicio 8
Seleccionar y mostrar solo las filas donde el nombre completo contenga `Miller`.

In [22]:
rows = df[df['fullname'].str.contains('Miller', na=False)]
print(rows)


            id firstname lastname                     email        fullname  \
birthdate                                                                     
1985-05-12   2     Ethel   Miller       Ethel14@hotmail.com    Ethel Miller   
1991-03-15   5   Raymond   Miller  Raymond.Miller@gmail.com  Raymond Miller   

            birthdate  age  
birthdate                   
1985-05-12 1985-05-12   39  
1991-03-15 1991-03-15   33  


## Ejercicio 9
Crear un nuevo DataFrame con una columna adicional `domain` que contenga el dominio del correo electrónico.

In [23]:
df['domain'] = df['email'].str.split('@').str[1]
print(df)


            id  firstname   lastname                     email  \
birthdate                                                        
1990-01-01   1      Kerry  O'Connell         Kerry16@gmail.com   
1985-05-12   2      Ethel     Miller       Ethel14@hotmail.com   
1992-07-23   3     Willie     Barton   Willie.Barton@gmail.com   
1988-11-30   4      Ellis       Lowe      Ellis.Lowe@gmail.com   
1991-03-15   5    Raymond     Miller  Raymond.Miller@gmail.com   
1987-09-25   6      Ellen   Thompson       Ellen92@hotmail.com   
1993-12-05   7        Joe       Rice           Joe55@gmail.com   
1986-04-18   8  Nathaniel     Legros   Nathaniel40@hotmail.com   
1990-08-22   9     Maxine   Schinner      Maxine93@hotmail.com   
1989-10-10  10        Tim   Jacobson         Tim92@hotmail.com   

                    fullname  birthdate  age       domain  
birthdate                                                  
1990-01-01   Kerry O'Connell 1990-01-01   35    gmail.com  
1985-05-12      Ethel Mille

## Ejercicio 10
Seleccionar y mostrar solo las filas donde el dominio del correo electrónico sea `hotmail.com`.

In [24]:
hotmail_rows = df[df['domain'] == 'hotmail.com']

print(hotmail_rows)


            id  firstname  lastname                    email  \
birthdate                                                      
1985-05-12   2      Ethel    Miller      Ethel14@hotmail.com   
1987-09-25   6      Ellen  Thompson      Ellen92@hotmail.com   
1986-04-18   8  Nathaniel    Legros  Nathaniel40@hotmail.com   
1990-08-22   9     Maxine  Schinner     Maxine93@hotmail.com   
1989-10-10  10        Tim  Jacobson        Tim92@hotmail.com   

                    fullname  birthdate  age       domain  
birthdate                                                  
1985-05-12      Ethel Miller 1985-05-12   39  hotmail.com  
1987-09-25    Ellen Thompson 1987-09-25   37  hotmail.com  
1986-04-18  Nathaniel Legros 1986-04-18   38  hotmail.com  
1990-08-22   Maxine Schinner 1990-08-22   34  hotmail.com  
1989-10-10      Tim Jacobson 1989-10-10   35  hotmail.com  


# Ejercicios de Agrupación, Ordenación y Unión
## Ejercicio 1
Agrupar por apellido y contar el número de ocurrencias de cada apellido.

In [25]:
lastname_counts = df.groupby('lastname').size()

print(lastname_counts)


lastname
Barton       1
Jacobson     1
Legros       1
Lowe         1
Miller       2
O'Connell    1
Rice         1
Schinner     1
Thompson     1
dtype: int64


## Ejercicio 2
Ordenar el DataFrame por fecha de nacimiento en orden ascendente.

In [32]:
df_sorted = df['birthdate'].sort_index()

print(df_sorted)


birthdate
1985-05-12   1985-05-12
1986-04-18   1986-04-18
1987-09-25   1987-09-25
1988-11-30   1988-11-30
1989-10-10   1989-10-10
1990-01-01   1990-01-01
1990-08-22   1990-08-22
1991-03-15   1991-03-15
1992-07-23   1992-07-23
1993-12-05   1993-12-05
Name: birthdate, dtype: datetime64[ns]


## Ejercicio 3
Unir dos DataFrames creados a partir del archivo CSV original.

In [33]:
df1 = df.iloc[:len(df)//2]
df2 = df.iloc[len(df)//2:]

df_combined = pd.concat([df1, df2])

print(df_combined)


            id  firstname   lastname                     email  \
birthdate                                                        
1990-01-01   1      Kerry  O'Connell         Kerry16@gmail.com   
1985-05-12   2      Ethel     Miller       Ethel14@hotmail.com   
1992-07-23   3     Willie     Barton   Willie.Barton@gmail.com   
1988-11-30   4      Ellis       Lowe      Ellis.Lowe@gmail.com   
1991-03-15   5    Raymond     Miller  Raymond.Miller@gmail.com   
1987-09-25   6      Ellen   Thompson       Ellen92@hotmail.com   
1993-12-05   7        Joe       Rice           Joe55@gmail.com   
1986-04-18   8  Nathaniel     Legros   Nathaniel40@hotmail.com   
1990-08-22   9     Maxine   Schinner      Maxine93@hotmail.com   
1989-10-10  10        Tim   Jacobson         Tim92@hotmail.com   

                    fullname  birthdate  age       domain  
birthdate                                                  
1990-01-01   Kerry O'Connell 1990-01-01   35    gmail.com  
1985-05-12      Ethel Mille

## Ejercicio 4
Agrupar por dominio del correo electrónico y contar el número de ocurrencias de cada dominio.

In [34]:
domain_counts = df.groupby('domain').size()

print(domain_counts)

domain
gmail.com      5
hotmail.com    5
dtype: int64


## Ejercicio 5
Ordenar el DataFrame por nombre completo en orden descendente.

In [40]:
df_fullname = df.sort_values(by='fullname', ascending=False)

print(df_fullname[['fullname']].reset_index(drop=True))


           fullname
0     Willie Barton
1      Tim Jacobson
2    Raymond Miller
3  Nathaniel Legros
4   Maxine Schinner
5   Kerry O'Connell
6          Joe Rice
7      Ethel Miller
8        Ellis Lowe
9    Ellen Thompson


## Ejercicio 6
Unir dos DataFrames utilizando la columna `id` como clave.

In [43]:
df_merged = pd.merge(df1, df2, on='id', how='inner')

print(df_merged)



   id value1 value2
0   2      B      X
1   3      C      Y


## Ejercicio 7
Agrupar por año de nacimiento y contar el número de ocurrencias de cada año.

In [45]:
df['birthdate'] = pd.to_datetime(df['birthdate'])

df['year'] = df['birthdate'].dt.year

cont_anios = df.groupby('year').size()

print(cont_anios)


year
1985    1
1986    1
1987    1
1988    1
1989    1
1990    2
1991    1
1992    1
1993    1
dtype: int64


## Ejercicio 8
Ordenar el DataFrame por apellido en orden ascendente y luego por nombre en orden descendente.

In [49]:
df = df.sort_values(by=['lastname', 'firstname'], ascending=[True, False])
print(df[['lastname', 'firstname']].reset_index(drop=True))


    lastname  firstname
0     Barton     Willie
1   Jacobson        Tim
2     Legros  Nathaniel
3       Lowe      Ellis
4     Miller    Raymond
5     Miller      Ethel
6  O'Connell      Kerry
7       Rice        Joe
8   Schinner     Maxine
9   Thompson      Ellen


## Ejercicio 9
Unir dos DataFrames utilizando la columna `email` como clave.

In [53]:
df1 = pd.read_csv("/content/datos_ejemplo.csv")
df2 = pd.read_csv("/content/datos_ejemplo.csv")

df_merged = pd.merge(df1, df2, on='email', how='inner')

print(df_merged)


   id_x firstname_x lastname_x                     email birthdate_x  id_y  \
0     1       Kerry  O'Connell         Kerry16@gmail.com  1990-01-01     1   
1     2       Ethel     Miller       Ethel14@hotmail.com  1985-05-12     2   
2     3      Willie     Barton   Willie.Barton@gmail.com  1992-07-23     3   
3     4       Ellis       Lowe      Ellis.Lowe@gmail.com  1988-11-30     4   
4     5     Raymond     Miller  Raymond.Miller@gmail.com  1991-03-15     5   
5     6       Ellen   Thompson       Ellen92@hotmail.com  1987-09-25     6   
6     7         Joe       Rice           Joe55@gmail.com  1993-12-05     7   
7     8   Nathaniel     Legros   Nathaniel40@hotmail.com  1986-04-18     8   
8     9      Maxine   Schinner      Maxine93@hotmail.com  1990-08-22     9   
9    10         Tim   Jacobson         Tim92@hotmail.com  1989-10-10    10   

  firstname_y lastname_y birthdate_y  
0       Kerry  O'Connell  1990-01-01  
1       Ethel     Miller  1985-05-12  
2      Willie     Barton

## Ejercicio 10
Agrupar por nombre y contar el número de ocurrencias de cada nombre.

In [54]:
name_counts = df.groupby('firstname').size()

print(name_counts)


firstname
Ellen        1
Ellis        1
Ethel        1
Joe          1
Kerry        1
Maxine       1
Nathaniel    1
Raymond      1
Tim          1
Willie       1
dtype: int64
