# Universidad del Norte
## Maestría en Periodismo
### Periodismo de Precisión
#### Carlos Andrés Yanes Guerra

En esta parte miraremos de forma introductoria algunos paquetes y partes de la parte de análisis de texto en **python**. Es una secuencia explicada de programación para aquellos que desean o miran a futuro la programación como elemento clave de complemento de trabajo

In [None]:
# Importamos los paquetes a trabajar
import string # Paquete de constantes
from string import Formatter
from string import Template

# Las cadenas de código que se pueden dar en un programa
print('Palabras comunes: ',string.ascii_letters)
print('En minusculas: ',string.ascii_lowercase)
print('Caso Mayusculas: ',string.ascii_uppercase)
print('Tenemos digitos: ',string.digits)
print('Los Hexadigitos: ',string.hexdigits)
print('Espacios en blanco: ',string.whitespace)  # ' \t\n\r\x0b\x0c'
print('Cadenas de puntuación: ',string.punctuation)
print('Todo impreso: ',string.printable)

Ahora miraremos algo mas interesante

In [None]:
# Ejemplos con Formatter
formato = Formatter()
print(formato.format('{website}', website='Maestría en Periodismo'))
print(formato.format('{} {website}', 'Bienvenido(a)s', website='a texto en códigos'))
# Miremos algo similar
print('{} {website}'.format('Bienvenido(a)s', website='a texto con café y código'))

En algunas ocasiones es bueno mirar las estructuras de un texto. En el podemos contar palabras (mirar logicamente $E[X|Condición]=true$ de forma booleana). Mire el siguiente ejemplo a continuación:

In [None]:
# Opciones de métricas livianas en los textos de análisis solo para mirar carácteres
print('Algunas veces por ir en contravía de la vida he sentido que voy por el camino errado'.count('o'))
print('Algunas veces por ir en contravía de la vida he sentido que voy por el camino errado'.endswith('e'))
print('Algunas veces por ir en contravía de la vida he sentido que voy por el camino errado'.startswith('H'))
print('Algunas veces por ir en contravía de la vida he sentido que voy por el camino errado'.find('r'))
print('Algunas veces por ir en contravía de la vida he sentido que voy por el camino errado'.find('e'))
print('Algunas veces por ir en contravía de la vida he sentido que voy por el camino errado'.index('u'))
print('Algunas veces por ir en contravía de la vida he sentido que voy por el camino errado'.isalnum())
print('987143562'.isalnum())
print('Hola'.isalpha())

## Texto con palabras y oraciones
Especificando esto lo empezamos a mirar con algunos condicionales, intentando encontrar palabras o elementos comunes. Aparte, vamos a vincular si encontramos cierta palabra dentro de una oración.

In [None]:

oracion = 'El profesor Yanes pertenece al área cuantitativa del Departamento de economía de Uninorte'
print('al' in oracion)
print('brindar' in oracion)


## Expresiones regulares (re)

En algunos estamentos y ocasiones, podemos encontrar un sin número de expresiones que usamos en nuestros escritos y establecer tambien elementos de busqueda y porque no de etiquetas.

In [None]:
import re
# Vamos a ver las expresiones regulares
print(bool(re.search(r'es', oracion)))
print(bool(re.search(r'xyz', oracion)))

Tambien es posible dar como resultado una etiqueta

In [None]:
if re.search(r'área cuantitativa', oracion):
    print('Misión cumplida')

Podemos hacerlo de forma negativa. Un ejemplo de eso es:

In [None]:
if not re.search(r'Casa por carcel', oracion):
    print('Nada llave por acá..')

# NLTK (Natural Language toolkit)

Es uno de los paquetes que se suele usar para **analisis de sentimiento** y tambien calcular frecuencias de expresiones

In [None]:
# instalar el paquete con pip
!pip install nltk

Luego de esto, podemos entonces mirar algunas consideraciones

In [None]:
import nltk

## Tokenizar

Para sacar jugo a los textos y al análisis de estos, se debe en muchas ocasiones hacer uso de tokens que de alguna manera dicen mas cosas que por si la expresión de un texto.

In [None]:
from nltk.tokenize import sent_tokenize
nltk.download('punkt')

In [None]:
# Ejemplo

texto="""Las ciencias sociales en su día a día intentan dar respuesta a preguntas interesantes que surgen de las necesidades humanas. es así como la psicologia trabaja la parte del cerebro, la economía las relaciones
de intercambio, las humanidades tambien hacen su parte y es así como se estudia como un todo la naturaleza del ser humano"""

Los tokens funciona de la siguiente forma:

In [None]:
texto_en_token=sent_tokenize(texto)
print(texto_en_token)

Si notamos, el token comienza a darse en momentos de puntuación comas o pausas en el escrito. Ahora a continuación lo haremos por palabras (es mas importante e interesante)

In [None]:
from nltk.tokenize import word_tokenize
palabra_a_palabra=word_tokenize(texto)
print(palabra_a_palabra)

A continuación vamos a mirar una pequeña forma de la distribución de palabras.

In [None]:
from nltk.probability import FreqDist
fdist=FreqDist(palabra_a_palabra)
print(fdist)

Empecemos entonces a cuantificar algo de esto y encontremos palábras comunes.

In [None]:
fdist.most_common(10)

Que no tendria sentido ya que son simple conectores o lo que en otra parte llamarian (stopwords). Miremos sin embargo un grafico (nuestro primero) de palabras

In [None]:
import matplotlib.pyplot as plt
fdist.plot(30, cumulative=False)
plt.show()

# Revisión de textos

Vamos a tomar un ejemplo de una base de datos que contiene reseñas en ingles de algunos sitios donde se realizan visitas y se emite una _opinión_ y una clasificación. Algunas variables que tiene la base van desde el código de revisión o cliente, fecha, calificación y en efecto su opinión

In [None]:
import nltk # Vamos hacer uso de este paquete que se encarga de tokens

# Para puntuación y palabras condicionales
nltk.download('stopwords')
nltk.download('punkt')
from nltk.stem import PorterStemmer
# Tenemos a pandas para importar las bases
import pandas as pd
# La parte de numpy para vectores
import numpy  as np

# Paquetes para dibujar
import plotly
import string

Despues de establecido el entorno de trabajo, comenzamos a inspeccionar la data de trabajo.

In [None]:
# Importamos los datos
datos = pd.read_csv('/content/datosrevi.csv', nrows=6000)
datos.head()

Ya con una vista preliminar de la base podemos entonces tener o tomar en cuenta solo la parte concerniente a texto. Va ser la parte mas importante para esto.

In [None]:
Revision = datos['text']
Revision.head()

En el evento de que querramos solo conocer una de las tantas reseñas que se han establecido, podemos realizarlo de tal forma o manera que:

In [None]:
Revision[4230]

Observe que este texto contiene carácteres especiales y puede estar usando incluso emojis y otros elementos que por lo pronto no son importantes para este caso ni que aportan algo diferente.

In [None]:
# Para tokenizar una expresión podemos implementar:
oraciones = nltk.sent_tokenize(Revision[0])
for oracion in oraciones:
    print(oracion)
    print()

Note que el texto es mas simple y mas amigable con la lectura o interpretación de algo que quiere mencionar cierto cliente. La parte de tokenizar tambien se puede hacer simple con elementos de palabra a palabra. Para hacer eso, podemos crear la siguiente **función**:

In [None]:
oraciones = nltk.sent_tokenize(datos['text'][0])
for oracion in oraciones:
    palabras = nltk.word_tokenize(oracion)
    print(oracion)
    print(palabras)
    print()

## Metricas en texto

Usemos entonces la parte cuantitativa de esto. Con eso podemos por lo pronto hacer un par de métricas.

In [None]:
longitud_texto = Revision.apply(lambda x: len(nltk.word_tokenize(x)))

Se demora un poco... pero ya haremos magia

In [None]:
min(longitud_texto)

In [None]:
# Ahora tamaño mayor
max(longitud_texto)

Acá los ejemplos mas completos:

In [None]:
Revision[longitud_texto[longitud_texto == 2].index]

In [None]:
Revision[longitud_texto[longitud_texto == max(longitud_texto)].index]
print(Revision[257])

In [None]:
# Algo mas gráfico
from pylab import rcParams
rcParams['figure.figsize'] = 20, 6
longitud_texto.hist(bins = 25)

# Hagamos algo mas claro

Las nubes de palabras ayudan a encontrar cosas interesantes

In [None]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud
nube_texto = ''.join(datos.text)
nube = WordCloud(max_font_size=100, max_words=100, background_color="white",\
                          scale = 10,width=800, height=400).generate(nube_texto)
plt.figure()
plt.imshow(nube, interpolation="bilinear")
plt.axis("off")
plt.show()

In [None]:
# Con solo palabras buenas
from pylab import rcParams
rcParams['figure.figsize'] = 30, 60

def rating_palabras(datos,ponderacion):

    filtro = datos[datos.stars == ponderacion] # Un filtro
    Revision = filtro.text

    Revision_textos = ' '.join(Revision.values) # Unir todas las palabras

    # Nube
    nube = WordCloud(max_font_size=100, max_words=100, background_color="white",\
                          scale = 10,width=800, height=400).generate(Revision_textos)

    # Grafico
    plt.figure()
    plt.imshow(nube, interpolation="bilinear")
    plt.axis("off")
    plt.show()

Lo anterior es la programación de la función, miremos si funciona

In [None]:
rating_palabras(datos,5)