# **Operaciones Básicas con Pandas**

Cargar librerías

In [9]:
import pandas as pd
import numpy as np
import requests
import sqlite3

## **Sección 1: Trabajando con un archivo CSV**
Cargar un archivo CSV

In [10]:
print("Cargando datos desde un archivo CSV...")
df_csv = pd.read_csv('netflix_titles.csv')  # Asegúrate de que el archivo exista en la misma ruta o proporciona la ruta completa.
print(df_csv.head())  # Mostrando las primeras 5 filas del DataFrame

Cargando datos desde un archivo CSV...
  show_id     type                  title         director  \
0      s1    Movie   Dick Johnson Is Dead  Kirsten Johnson   
1      s2  TV Show          Blood & Water              NaN   
2      s3  TV Show              Ganglands  Julien Leclercq   
3      s4  TV Show  Jailbirds New Orleans              NaN   
4      s5  TV Show           Kota Factory              NaN   

                                                cast        country  \
0                                                NaN  United States   
1  Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...   South Africa   
2  Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...            NaN   
3                                                NaN            NaN   
4  Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...          India   

           date_added  release_year rating   duration  \
0  September 25, 2021          2020  PG-13     90 min   
1  September 24, 2021          2021  TV-MA  2 S

## Operaciones básicas

In [17]:
print("Operaciones básicas con el archivo CSV:")
print(f"Número de filas y columnas: {df_csv.shape}")
print(f"Estadísticas descriptivas: \n{df_csv.describe()}")
print(f"Valores nulos por columna: \n{df_csv.isnull().sum()}")

Operaciones básicas con el archivo CSV:
Número de filas y columnas: (8807, 12)
Estadísticas descriptivas: 
       release_year
count   8807.000000
mean    2014.180198
std        8.819312
min     1925.000000
25%     2013.000000
50%     2017.000000
75%     2019.000000
max     2021.000000
Valores nulos por columna: 
show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64


## **Sección 2: Trabajando con una API**
Consultar datos desde una API

In [13]:
print("Consultando datos desde una API...")
url = "https://jsonplaceholder.typicode.com/posts"
response = requests.get(url)
data = response.json()
df_api = pd.DataFrame(data)
print(df_api.head()) 


Consultando datos desde una API...
   userId  id                                              title  \
0       1   1  sunt aut facere repellat provident occaecati e...   
1       1   2                                       qui est esse   
2       1   3  ea molestias quasi exercitationem repellat qui...   
3       1   4                               eum et est occaecati   
4       1   5                                 nesciunt quas odio   

                                                body  
0  quia et suscipit\nsuscipit recusandae consequu...  
1  est rerum tempore vitae\nsequi sint nihil repr...  
2  et iusto sed quo iure\nvoluptatem occaecati om...  
3  ullam et saepe reiciendis voluptatem adipisci\...  
4  repudiandae veniam quaerat sunt sed\nalias aut...  


## Operaciones básicas

In [18]:
print("Operaciones básicas con datos de la API:")
print(f"Número de filas y columnas: {df_api.shape}")
print(f"Primeros 3 valores de la columna 'title': \n{df_api['title'].head(3)}")
print(f"Conteo de palabras en la columna 'body': \n{df_api['body'].apply(lambda x: len(x.split())).head(5)}")

Operaciones básicas con datos de la API:
Número de filas y columnas: (100, 4)
Primeros 3 valores de la columna 'title': 
0    sunt aut facere repellat provident occaecati e...
1                                         qui est esse
2    ea molestias quasi exercitationem repellat qui...
Name: title, dtype: object
Conteo de palabras en la columna 'body': 
0    23
1    31
2    26
3    28
4    23
Name: body, dtype: int64


## **Sección 3: Trabajando con una base de datos**
Conectar a una base de datos SQLite (base de datos local para simplicidad)

In [19]:
print("Consultando datos desde una base de datos SQLite...")
connection = sqlite3.connect('sample_database.db')
cursor = connection.cursor()


Consultando datos desde una base de datos SQLite...


### Crear una tabla y agregar datos (si no existe)

In [20]:
cursor.execute("""
CREATE TABLE IF NOT EXISTS users (
    id INTEGER PRIMARY KEY,
    name TEXT,
    age INTEGER,
    email TEXT
);
""")

<sqlite3.Cursor at 0x16a152640>

### Insertar datos de ejemplo

In [22]:
cursor.executemany("INSERT INTO users (name, age, email) VALUES (?, ?, ?);", [
    ('Alice', 30, 'alice@example.com'),
    ('Bob', 25, 'bob@example.com'),
    ('Charlie', 35, 'charlie@example.com')
])
connection.commit()

### Leer datos de la base de datos

In [23]:
query = "SELECT * FROM users"
df_db = pd.read_sql_query(query, connection)
print(df_db.head())  # Mostrando las primeras 5 filas del DataFrame

   id     name  age                email
0   1    Alice   30    alice@example.com
1   2      Bob   25      bob@example.com
2   3  Charlie   35  charlie@example.com


## Operaciones básicas

In [24]:
print("Operaciones básicas con datos de la base de datos:")
print(f"Número de filas y columnas: {df_db.shape}")
print(f"Promedio de edad: {df_db['age'].mean()}")
print(f"Usuarios mayores de 30 años: \n{df_db[df_db['age'] > 30]}")

Operaciones básicas con datos de la base de datos:
Número de filas y columnas: (3, 4)
Promedio de edad: 30.0
Usuarios mayores de 30 años: 
   id     name  age                email
2   3  Charlie   35  charlie@example.com


### Cerrar conexión con la base de datos

In [26]:
connection.close()

## Otras Operaciones
### Ordenar por la longitud del título

In [27]:
df_api['title_length'] = df_api['title'].apply(len) # creando una nueva columna llamada title_length
sorted_df = df_api.sort_values(by='title_length', ascending=False) # crear un nuevo dataFrame con los datos ordenados por longitud
print("Datos ordenados por la longitud del título:")
print(sorted_df[['title', 'title_length']].head())

Datos ordenados por la longitud del título:
                                                title  title_length
49  repellendus qui recusandae incidunt voluptates...            79
42  eligendi iste nostrum consequuntur adipisci pr...            78
83  optio ipsam molestias necessitatibus occaecati...            76
59  consequatur placeat omnis quisquam quia repreh...            76
0   sunt aut facere repellat provident occaecati e...            74


### Filtrar registros donde el 'userId' sea mayor a 5

In [28]:
filtered_df = df_api[df_api['userId'] > 5]
print("Registros con userId mayor a 5:")
print(filtered_df.head())

Registros con userId mayor a 5:
    userId  id                                              title  \
50       6  51  soluta aliquam aperiam consequatur illo quis v...   
51       6  52  qui enim et consequuntur quia animi quis volup...   
52       6  53                           ut quo aut ducimus alias   
53       6  54         sit asperiores ipsam eveniet odio non quia   
54       6  55                   sit vel voluptatem et non libero   

                                                 body  title_length  
50  sunt dolores aut doloribus\ndolore doloribus v...            53  
51  iusto est quibusdam fuga quas quaerat molestia...            60  
52  minima harum praesentium eum rerum illo dolore...            24  
53  totam corporis dignissimos\nvitae dolorem ut o...            42  
54  debitis excepturi ea perferendis harum libero ...            32  


### Contar el número de publicaciones por usuario

In [29]:
grouped = df_api.groupby('userId').size() # agrupar por userId y contar para obtener numero de publicaciones por usuario
print("Número de publicaciones por usuario:")
print(grouped)

Número de publicaciones por usuario:
userId
1     10
2     10
3     10
4     10
5     10
6     10
7     10
8     10
9     10
10    10
dtype: int64


### Agregar una columna que indique si el título contiene más de 5 palabras

In [30]:
df_api['long_title'] = df_api['title'].apply(lambda x: len(x.split()) > 5)
print("DataFrame con columna adicional 'long_title':")
print(df_api[['title', 'long_title']].head())

DataFrame con columna adicional 'long_title':
                                               title  long_title
0  sunt aut facere repellat provident occaecati e...        True
1                                       qui est esse       False
2  ea molestias quasi exercitationem repellat qui...        True
3                               eum et est occaecati       False
4                                 nesciunt quas odio       False


### Verificar datos faltantes en todo el DataFrame

In [31]:
missing_data = df_api.isnull().sum()
print("Datos faltantes por columna:")
print(missing_data)

Datos faltantes por columna:
userId          0
id              0
title           0
body            0
title_length    0
long_title      0
dtype: int64


### Convertir los títulos a mayúsculas

In [32]:
df_api['title_upper'] = df_api['title'].apply(lambda x: x.upper())
print("Títulos convertidos a mayúsculas:")
print(df_api[['title', 'title_upper']].head())

Títulos convertidos a mayúsculas:
                                               title  \
0  sunt aut facere repellat provident occaecati e...   
1                                       qui est esse   
2  ea molestias quasi exercitationem repellat qui...   
3                               eum et est occaecati   
4                                 nesciunt quas odio   

                                         title_upper  
0  SUNT AUT FACERE REPELLAT PROVIDENT OCCAECATI E...  
1                                       QUI EST ESSE  
2  EA MOLESTIAS QUASI EXERCITATIONEM REPELLAT QUI...  
3                               EUM ET EST OCCAECATI  
4                                 NESCIUNT QUAS ODIO  


### Estadísticas sobre el conteo de palabras en 'body'

In [33]:
word_counts = df_api['body'].apply(lambda x: len(x.split()))
print("Estadísticas descriptivas sobre el conteo de palabras en 'body':")
print(word_counts.describe())

Estadísticas descriptivas sobre el conteo de palabras en 'body':
count    100.000000
mean      23.850000
std        3.849111
min       16.000000
25%       21.000000
50%       24.000000
75%       26.250000
max       32.000000
Name: body, dtype: float64


### Eliminar la columna 'title_upper'

In [34]:
df_api_cleaned = df_api.drop(columns=['title_upper'])
print("DataFrame después de eliminar la columna 'title_upper':")
print(df_api_cleaned.head())

DataFrame después de eliminar la columna 'title_upper':
   userId  id                                              title  \
0       1   1  sunt aut facere repellat provident occaecati e...   
1       1   2                                       qui est esse   
2       1   3  ea molestias quasi exercitationem repellat qui...   
3       1   4                               eum et est occaecati   
4       1   5                                 nesciunt quas odio   

                                                body  title_length  long_title  
0  quia et suscipit\nsuscipit recusandae consequu...            74        True  
1  est rerum tempore vitae\nsequi sint nihil repr...            12       False  
2  et iusto sed quo iure\nvoluptatem occaecati om...            59        True  
3  ullam et saepe reiciendis voluptatem adipisci\...            20       False  
4  repudiandae veniam quaerat sunt sed\nalias aut...            18       False  


### Renombrar la columna 'body' a 'content'

In [35]:
renamed_df = df_api.rename(columns={'body': 'content'})
print("DataFrame con columna renombrada:")
print(renamed_df.head())

DataFrame con columna renombrada:
   userId  id                                              title  \
0       1   1  sunt aut facere repellat provident occaecati e...   
1       1   2                                       qui est esse   
2       1   3  ea molestias quasi exercitationem repellat qui...   
3       1   4                               eum et est occaecati   
4       1   5                                 nesciunt quas odio   

                                             content  title_length  \
0  quia et suscipit\nsuscipit recusandae consequu...            74   
1  est rerum tempore vitae\nsequi sint nihil repr...            12   
2  et iusto sed quo iure\nvoluptatem occaecati om...            59   
3  ullam et saepe reiciendis voluptatem adipisci\...            20   
4  repudiandae veniam quaerat sunt sed\nalias aut...            18   

   long_title                                        title_upper  
0        True  SUNT AUT FACERE REPELLAT PROVIDENT OCCAECATI E...  
1 

### Crear un pivot table simulando datos categóricos (requiere ajustes según tus datos reales)

In [36]:
pivot_table = df_api.pivot_table(values='id', index='userId', aggfunc='count')
print("Tabla pivot con el conteo de publicaciones por usuario:")
print(pivot_table)

Tabla pivot con el conteo de publicaciones por usuario:
        id
userId    
1       10
2       10
3       10
4       10
5       10
6       10
7       10
8       10
9       10
10      10
